Тэг Python NLTK PoS неточный

Question

Тэг Python NLTK PoS неточный

Я пытался улучшить POS-тегер на NLTK в течение нескольких дней, но я не могу понять это. Прямо сейчас тег по умолчанию действительно неточен и отмечает большинство слов как "NN". Как я могу улучшить тегер, чтобы сделать его более точным? Я уже смотрел, как тренировал тегер, но не могу заставить его работать.

У кого-нибудь есть простой метод для этого? большое спасибо.

-1

python machine-learning nltk part-of-speech

Источник

user7502382 03 фев '17 в 21:14

1 ответ

Другие вопросы по тегам python machine-learning nltk part-of-speech

user7497684 03 фев '17 в 21:36 2017-02-03 21:36 · Answer 1 · 2017-02-03 21:36

Вы делаете это по одному слову за раз или в большом корпусе? Обычно алгоритмы маркировки POS используют вероятность того, что слово является типом тега, например, "NN", но они также используют окружающий контекст предложения, чтобы предсказать, поэтому чем больше слов, тем больше вероятность того, что оно будет точным.

Вы также можете попробовать использовать различные теги Unigram, биграммы, триграммы и т. Д., Чтобы повысить точность за счет производительности. Вы можете прочитать об этом здесь: http://www.nltk.org/book/ch05.html