Что создало `maxent_treebank_pos_tagger/english.pickle`?
nltk
Встроенный в пакет тегер части речи, похоже, не оптимизирован для моего варианта использования ( например, здесь). Исходный код здесь показывает, что он использует сохраненный, предварительно обученный классификатор под названием maxent_treebank_pos_tagger
,
Что создано maxent_treebank_pos_tagger/english.pickle
? Я предполагаю, что где-то есть какой-то помеченный корпус, который использовался для обучения этого тегера, поэтому я думаю, что я ищу (а) этот помеченный корпус и (б) точный код, который обучает тегер на основе помеченного корпус.
В дополнение к большому количеству поиска в Google, пока я пытался взглянуть на .pickle
возражать напрямую, чтобы найти какие-либо подсказки внутри, начиная с этого
from nltk.data import load
x = load("nltk_data/taggers/maxent_treebank_pos_tagger/english.pickle")
dir(x)
1 ответ
Источник NLTK - https://github.com/nltk/nltk/blob/develop/nltk/tag/__init__.py.
Первоначальный источник тегов MaxEnt POS от NLTK находится по https://github.com/arne-cl/nltk-maxent-pos-tagger
Учебные данные: подмножество Wall Street Journal банковского корпуса Penn Tree
Особенности: Ратнапарки (1996)
Алгоритм: максимальная энтропия
Точность: Какова точность nltk pos_tagger?