Удалить похожее слово биграмм
Список биграмм, который я могу сгенерировать, содержит похожие слова биграммы и для которых они возвращаются. например
(почва, почва), (земля, земля) // похожее слово bigram
(защита, область), (область, защита) // возвращение биграма
Как я могу удалить из своего списка счетчиков или моего списка биграмм? Так как я хотел бы сохранить последовательность слов в предложении таким образом, я не хотел бы удалять их из первоначального списка.
Вот мой код
texts = [[word for word in text if word not in stopwords] for text in words]
ind_bigrams =[]
#only bigram generation
for i in texts:
bgram =list(bigrams(i))
for j in bgram:
ind_bigrams.append(j)
print(Counter(ind_bigrams))
ОБНОВИТЬ
В приведенном выше коде тексты - это список списков токенов. bgram(снова список) - это список биграмм для каждого внутреннего списка. ind_bigrams - это объединение каждого списка bgram в один список.