Python, возвращающий биграммы и триграммы

У меня есть список биграмм и триграмм:

string = 'do not be sad'

a_list: = ['do', 'not', 'do not', 'be', 'not be', 'do not be', 'sad', 'be sad', 'not be sad']

Мне было интересно, если есть функция, чтобы повернуть биграмму и триграмму в a_list? Я знаю, что могу объединить все строки и удалить дубликаты, но это теряет структуру предложения. Я смотрю, есть ли у кого-нибудь советы, чтобы a_list может быть возвращен к своей исходной строке.

Желаемый результат будет:

b_list = ['do not be sad']

2 ответа

Попробуй это

string = 'do not be sad'
string = string.split()

a_list = ['do', 'not', 'do not', 'be', 'not be', 'do not be', 'sad', 'be sad', 'not be sad']

new = []

for a in string:
    for b in a_list:
        if a == b:
            new.append(b)

print([' '.join(new)])

Выход

['do not be sad']

и мы можем превратить его в приятный однострочный

print([' '.join([b for a in string for b in a_list if a == b])])

РЕДАКТИРОВАТЬ: В ответ на комментарий Zondo я решил отредактировать свой ответ, более того, я нашел эту проблему очень интересной

a_list = ['do', 'not', 'do not', 'be', 'not be', 'do not be', 'sad', 'be sad', 'not be sad']
a_list = ['This', 'is', 'This is', 'my', 'is my', 'This is my', 'car', 'my car', 'is my car']
a_list = ['i', 'am', 'i am', 'a' , 'am a', 'i am a', 'boy', 'a boy', 'am a boy']

largest = max(a_list, key=len) # get the longest sub word in the list

# loop through and if all words of a sublist don't exist in the largest sub word then join them together
for elem in a_list:
    sp = elem.split()
    if all(i not in largest for i in sp):
        if a_list.index(elem) < a_list.index(largest):
            print([elem + ' ' + largest])
        else:
            print([largest + ' ' + elem])

я также создал несколько тестовых случаев, чтобы проверить свое решение, и все они прошли

Используйте понимание списка:

a_sentence = [" ".join(word for word in a_list if len(word.split()) == 1)]
print(a_sentence)

# Output: ['do not be sad']
Другие вопросы по тегам