Какие типы сущностей для NLTK?

Я пытался найти полный список типов сущностей NLTK. Мне удалось найти только самые распространенные из них на этой странице, но не полный список. Не могли бы вы поделиться полным списком именованных типов сущностей, которые есть в NLTK?

1 ответ

Решение

Это очень хороший вопрос, я и сам задавался вопросом. Кажется, это нигде не задокументировано, даже в источнике nltk, и, конечно, это определяется корпусом, на котором был обучен чанкер - который, кажется, является или был корпусом ACE, который не распространяется с нлтк

Немного покопавшись в источнике, нашел ответ:

>>> chunker=nltk.data.load(nltk.chunk._MULTICLASS_NE_CHUNKER) # cf. nltk/chunk/__init__.py
>>> sorted(chunker._tagger._classifier.labels())
['B-FACILITY', 'B-GPE', 'B-GSP', 'B-LOCATION', 'B-ORGANIZATION', 'B-PERSON', 
 'I-FACILITY', 'I-GPE', 'I-GSP', 'I-LOCATION', 'I-ORGANIZATION', 'I-PERSON',
 'O']

Обратите внимание, что некоторые из "общих" типов, упомянутых в книге, в том числе DATE и TIME, фактически не обнаруживаются этим блоком.

Если названия типов сущностей недостаточно информативны для вас, покопайтесь в документации ACE corpus.

Другие вопросы по тегам