Что означают теги BILOU в распознавании именованных объектов?
Название в значительной степени подводит итог вопроса. Я заметил, что в некоторых статьях люди ссылались на схему кодирования BILOU для NER, а не на типичную схему тегирования BIO (например, на эту статью Ратинов и Рот в 2009 году http://cogcomp.cs.illinois.edu/page/publication_view/199)
Из работы с данными CoNLL 2003 года я знаю, что
B stands for 'beginning' (signifies beginning of an NE)
I stands for 'inside' (signifies that the word is inside an NE)
O stands for 'outside' (signifies that the word is just a regular word outside of an NE)
Хотя мне сказали, что слова в BILOU означают
B - 'beginning'
I - 'inside'
L - 'last'
O - 'outside'
U - 'unit'
Я также видел людей, ссылающихся на другой тег
E - 'end', use it concurrently with the 'last' tag
S - 'singleton', use it concurrently with the 'unit' tag
Я довольно новичок в литературе NER, но я не смог найти что-то, что четко объясняет эти теги. Мои вопросы, в частности, касаются разницы между тегами 'last' и 'end' и тем, что обозначает тег 'unit'.
6 ответов
Основываясь на проблеме и патче в Clear TK, кажется, что BILOU расшифровывается как "Начальный, Внутренний и Последний токены многокомпонентных блоков, Блок-блоков и Внешних элементов" (выделение добавлено). Например, чанки обозначены скобками
(foo foo foo) (bar) no no no (bar bar)
может быть закодирован с BILOU как
B-foo, I-foo, L-foo, U-bar, O, O, O, B-bar, L-bar
Я хотел бы добавить некоторый опыт сравнения схем BIO и BILOU. Мой эксперимент проводился только на одном наборе данных и, возможно, не является репрезентативным.
Мой набор данных содержит около 35 тысяч коротких высказываний (2-10 токенов) и аннотируется с использованием 11 различных тегов. Другими словами, есть 11 именованных объектов.
Используемые функции включают в себя слово, левую и правую 2-граммы, 1-5 символьных диаграмм (кроме средних), элементы формы и так далее. Немногие юридические лица также поддерживаются газетой.
Я перетасовал набор данных и разделил его на 80/20 частей: обучение и тестирование. Этот процесс был повторен 5 раз, и для каждого объекта я записал Точность, Отзыв и Измерение F1. Производительность измерялась на уровне организации, а не на уровне токенов, как в статье Ratinov & Roth, 2009.
Программное обеспечение, которое я использовал для обучения модели - CRFSuite. Я использовал L-BFGS решатель с c1=0 и c2=1.
Прежде всего, результаты тестов, сравниваемые для 5 крат, очень похожи. Это означает, что есть небольшая изменчивость от бега к бегу, и это хорошо. Во-вторых, схема BIO выполняется очень похоже на схему BILOU. Если есть какая-либо существенная разница, возможно, она находится на третьей или четвертой цифре после периода в точных, повторных и F1-измерениях.
Вывод: в моем эксперименте схема BILOU не лучше (но и не хуже) схемы BIO.
B = Beginning
I/M = Inside / Middle
L/E = Last / End
O = Outside
U/W = Unit-length / Whole
BILOU то же самое с BMEWO.
Существует также BMEWO+, который добавляет больше информации об окружающем классе слов к внешним токенам (таким образом, "O плюс")
Подробности смотрите здесь https://lingpipe-blog.com/2009/10/14/coding-chunkers-as-taggers-io-bio-bmewo-and-bmewo/
Это просто дает больше контекста для ваших тегов, указывающих, какая часть объекта.
BILOU Method/Schema
| ------|--------------------|
| BEGIN | The first token |
| ------|--------------------|
| IN | An inner token |
| ------|--------------------|
| LAST | The final token |
| ------|--------------------|
| Unit | A single-token |
| ------|--------------------|
| Out | A non-entity token |
| ------|--------------------|
BIOES
Более сложный метод аннотации различает конец именованной сущности и отдельные сущности. Этот метод называется BIOES для Begin, Inside, Outside, End, Single.
IOB (например, CoNLL 2003)
IOB (или BIO) означает начало, внутри и снаружи. Слова, помеченные знаком O, находятся за пределами именованных сущностей.
для более подробной информации пройдите по ссылке ниже
URL : https://en.wikipedia.org/wiki/Inside%E2%80%93outside%E2%80%93beginning_(tagging)
URL :https://towardsdatascience.com/deep-learning-for-ner-1-public-datasets-and-annotation-methods-8b1ad5e98caf
BIO
такой же как
BILOU
за исключением следующих пунктов:
- В
BILOU
, последнийI
тег в конкретномI
"кластер" будет преобразован вL
. Например.
BIO - B-foo, I-foo, I-foo, O, O, O, B-bar, I-bar
BILOU - B-foo, I-foo, L-foo, O, O, O, B-bar, L-bar
- В
BILOU
, любой автономный тег преобразуется вU
тег. Например.
BIO - B-foo, O, O, O, B-bar
BILOU - U-foo, O, O, O, U-bar
Ниже приведен набор одинаковых тегов, представленных в обоих
BIO
и
BILOU
обозначения:
BIO - B-foo, I-foo, I-foo, O, O, B-bar, I-bar, O, B-bar, O
BILOU - B-foo, I-foo, L-foo, O, O, B-bar, L-bar, O, U-bar, O
- B - "начать"
- Я - "внутри"
- L - "последний"
- O - 'вне / прочее'
- U - "униграмма"