Apache OpenNLP Часть речевого тэгера: обучены, какой набор данных?
Я использую Apache OpenNLP Part-of-Speech Tagger для распознавания классов слов в наборе текста. Я пытаюсь оценить теггер на предмет его производительности, и мне было интересно, на каких данных он мог быть обучен? Название моделей, существующих на английском языке, не дает никаких подсказок об используемых данных обучения.
В документации Apache OpenNLP упоминается несколько корпусов, которые потенциально могли бы также использоваться для обучения POS-Tagger. http://opennlp.apache.org/documentation/manual/opennlp.html
Кто-нибудь знает, как узнать, по каким данным обучения были обучены английские POS-модели?
1 ответ
Да, вы правы, что в OpenNLP используется несколько корпусов.
Но если вы увидите страницу "Модель OpenNLP", будет указано, какой набор данных используется для обучения модели, как показано ниже.