Тэг Python NLTK PoS неточный

Я пытался улучшить POS-тегер на NLTK в течение нескольких дней, но я не могу понять это. Прямо сейчас тег по умолчанию действительно неточен и отмечает большинство слов как "NN". Как я могу улучшить тегер, чтобы сделать его более точным? Я уже смотрел, как тренировал тегер, но не могу заставить его работать.

У кого-нибудь есть простой метод для этого? большое спасибо.

1 ответ

Вы делаете это по одному слову за раз или в большом корпусе? Обычно алгоритмы маркировки POS используют вероятность того, что слово является типом тега, например, "NN", но они также используют окружающий контекст предложения, чтобы предсказать, поэтому чем больше слов, тем больше вероятность того, что оно будет точным.

Вы также можете попробовать использовать различные теги Unigram, биграммы, триграммы и т. Д., Чтобы повысить точность за счет производительности. Вы можете прочитать об этом здесь: http://www.nltk.org/book/ch05.html

Другие вопросы по тегам