Каков список возможных тегов с описанием задачи NER CoNLL 2003?

Мне нужно сделать NER. Я нашел библиотеку DeepPavlov, которая делает это.

Вот пример из документации:

from deeppavlov import configs, build_model

ner_model = build_model(configs.ner.ner_ontonotes, download=True)
ner_model(['Bob Ross lived in Florida'])
>>> [[['Bob', 'Ross', 'lived', 'in', 'Florida']], [['B-PERSON', 'I-PERSON', 'O', 'O', 'B-GPE']]]

Я не понимаю, что означают все эти теги. Как я понял из документации, они в формате задачи NER CoNLL 2003.

Может кто-нибудь указать мне на список возможных тегов с описанием CoNLL 2003 NER Task?

1 ответ

Решение

Для задачи NER есть несколько общих типов объектов, используемых в качестве тегов:

  • человек (PER)
  • организации (ОРГ)
  • денежные значения (ДЕНЬГИ)
  • Геополитическое образование, т. Е. Страны, города, государства (GPE)

и много других

Кроме того, для различения смежных объектов с одним и тем же тегом многие приложения используют схему тегирования BIO. Здесь B обозначает начало объекта, I обозначает "внутри" и используется для всех слов, составляющих объект, кроме первого, а O означает отсутствие объекта.

Таким образом, в приведенном выше примере B-PERSON означает, что имя человека начинается с токена Bob, следующий тег I-PERSON говорит, что Росс относится к объекту как к предыдущему тегу. Затем идет O, что означает, что жил не принадлежит ни одной сущности, то же самое с in, тогда как Флорида - начало геополитической сущности (GPE).

Пожалуйста, дайте мне знать, если это было достаточно полезно.

Другие вопросы по тегам