Редактирование NLTK Corpus
В дополнение к корпусу, который поставляется с nltk, я хочу тренировать его с моим собственным корпусом, который следует той же части речевых правил. Как я могу найти корпус, который он использует, и как я могу добавить свой собственный корпус (кроме того, не в качестве замены)?
РЕДАКТИРОВАТЬ: Вот код, который я сейчас использую:
inpy = raw_input("$")
text = nltk.word_tokenize(inpy)
d = nltk.pos_tag(text)
1 ответ
Решение
NLTK поставляется с большим количеством различных корпусов. Было бы полезно, если бы вы указали более подробно, какой корпус вы хотите увеличить. Основным английским POS корпусом в НЛТК является корпус Брауна. Смотрите также http://www.nltk.org/book/ch05.html а также http://en.wikipedia.org/wiki/Brown_Corpus и http://www.nltk.org/nltk_data/