Что создало `maxent_treebank_pos_tagger/english.pickle`?

nltk Встроенный в пакет тегер части речи, похоже, не оптимизирован для моего варианта использования ( например, здесь). Исходный код здесь показывает, что он использует сохраненный, предварительно обученный классификатор под названием maxent_treebank_pos_tagger,

Что создано maxent_treebank_pos_tagger/english.pickle? Я предполагаю, что где-то есть какой-то помеченный корпус, который использовался для обучения этого тегера, поэтому я думаю, что я ищу (а) этот помеченный корпус и (б) точный код, который обучает тегер на основе помеченного корпус.

В дополнение к большому количеству поиска в Google, пока я пытался взглянуть на .pickle возражать напрямую, чтобы найти какие-либо подсказки внутри, начиная с этого

from nltk.data import load
x = load("nltk_data/taggers/maxent_treebank_pos_tagger/english.pickle")
dir(x)

1 ответ

Источник NLTK - https://github.com/nltk/nltk/blob/develop/nltk/tag/__init__.py.

Первоначальный источник тегов MaxEnt POS от NLTK находится по https://github.com/arne-cl/nltk-maxent-pos-tagger

Учебные данные: подмножество Wall Street Journal банковского корпуса Penn Tree

Особенности: Ратнапарки (1996)

Алгоритм: максимальная энтропия

Точность: Какова точность nltk pos_tagger?

Другие вопросы по тегам