Удалить похожее слово биграмм

Список биграмм, который я могу сгенерировать, содержит похожие слова биграммы и для которых они возвращаются. например

(почва, почва), (земля, земля) // похожее слово bigram

(защита, область), (область, защита) // возвращение биграма

Как я могу удалить из своего списка счетчиков или моего списка биграмм? Так как я хотел бы сохранить последовательность слов в предложении таким образом, я не хотел бы удалять их из первоначального списка.

Вот мой код

texts = [[word for word in text if word not in stopwords] for text in words]
ind_bigrams =[]
  #only bigram generation
for i in texts:
    bgram =list(bigrams(i))
for j in bgram:
    ind_bigrams.append(j)
print(Counter(ind_bigrams))

ОБНОВИТЬ

В приведенном выше коде тексты - это список списков токенов. bgram(снова список) - это список биграмм для каждого внутреннего списка. ind_bigrams - это объединение каждого списка bgram в один список.

0 ответов

Другие вопросы по тегам