Каков список возможных тегов с описанием задачи NER CoNLL 2003?
Мне нужно сделать NER. Я нашел библиотеку DeepPavlov, которая делает это.
Вот пример из документации:
from deeppavlov import configs, build_model
ner_model = build_model(configs.ner.ner_ontonotes, download=True)
ner_model(['Bob Ross lived in Florida'])
>>> [[['Bob', 'Ross', 'lived', 'in', 'Florida']], [['B-PERSON', 'I-PERSON', 'O', 'O', 'B-GPE']]]
Я не понимаю, что означают все эти теги. Как я понял из документации, они в формате задачи NER CoNLL 2003.
Может кто-нибудь указать мне на список возможных тегов с описанием CoNLL 2003 NER Task?
1 ответ
Для задачи NER есть несколько общих типов объектов, используемых в качестве тегов:
- человек (PER)
- организации (ОРГ)
- денежные значения (ДЕНЬГИ)
- Геополитическое образование, т. Е. Страны, города, государства (GPE)
и много других
Кроме того, для различения смежных объектов с одним и тем же тегом многие приложения используют схему тегирования BIO. Здесь B обозначает начало объекта, I обозначает "внутри" и используется для всех слов, составляющих объект, кроме первого, а O означает отсутствие объекта.
Таким образом, в приведенном выше примере B-PERSON означает, что имя человека начинается с токена Bob, следующий тег I-PERSON говорит, что Росс относится к объекту как к предыдущему тегу. Затем идет O, что означает, что жил не принадлежит ни одной сущности, то же самое с in, тогда как Флорида - начало геополитической сущности (GPE).
Пожалуйста, дайте мне знать, если это было достаточно полезно.