Список словосочетаний для текстового файла

Question

Список словосочетаний для текстового файла

Я хочу перечислить словосочетания, о которых сообщает NLTK для Dracula.txt. Как мне это сделать? Я могу найти частоту слов, добавив ее в мой корпус. У меня тоже есть переменная DracWords dracWords = mycorpus.words('Dracula.txt') в котором есть слова из текста Дракулы. Из этого я могу сделать распределение частот, но сейчас я хочу перечислить коллокации из него.

Любая помощь приветствуется.

1

python nlp collocation

Источник

user7271580 24 янв '17 в 06:56

2 ответа

Решение

Вы можете попробовать это:

from collections import Counter

text = 'List the collocations for a txt file'
words = text.split()
nextword = iter(words)
next(nextword)

print(Counter(zip(words, nextword)))

И вы получите:

Counter({('txt', 'file'): 1, ('List', 'the'): 1, ('collocations', 'for'): 1, ('for', 'a'): 1, ('the', 'collocations'): 1, ('a', 'txt'): 1})

Надеюсь это поможет.

1

Источник

user6760995 24 янв '17 в 07:17

Другие вопросы по тегам python nlp collocation

user7271580 24 янв '17 в 07:52 2017-01-24 07:52 · Accepted Answer · 2017-01-24 07:52

Спасибо всем. смог получить его с

nltk.Text(mycorpus.words('Dracula.txt')).collocations()

1

Источник

user7271580 24 янв '17 в 07:52