Apache OpenNLP Часть речевого тэгера: обучены, какой набор данных?

Question

Apache OpenNLP Часть речевого тэгера: обучены, какой набор данных?

Я использую Apache OpenNLP Part-of-Speech Tagger для распознавания классов слов в наборе текста. Я пытаюсь оценить теггер на предмет его производительности, и мне было интересно, на каких данных он мог быть обучен? Название моделей, существующих на английском языке, не дает никаких подсказок об используемых данных обучения.

В документации Apache OpenNLP упоминается несколько корпусов, которые потенциально могли бы также использоваться для обучения POS-Tagger. http://opennlp.apache.org/documentation/manual/opennlp.html

Кто-нибудь знает, как узнать, по каким данным обучения были обучены английские POS-модели?

1

java apache part-of-speech

Источник

user1430550 02 май '15 в 06:39

1 ответ

Другие вопросы по тегам java apache part-of-speech

user870483 05 май '15 в 06:33 2015-05-05 06:33 · Answer 1 · 2015-05-05 06:33

Да, вы правы, что в OpenNLP используется несколько корпусов.
Но если вы увидите страницу "Модель OpenNLP", будет указано, какой набор данных используется для обучения модели, как показано ниже.

0

Источник

user870483 05 май '15 в 06:33