Что означают теги BILOU в распознавании именованных объектов?

Название в значительной степени подводит итог вопроса. Я заметил, что в некоторых статьях люди ссылались на схему кодирования BILOU для NER, а не на типичную схему тегирования BIO (например, на эту статью Ратинов и Рот в 2009 году http://cogcomp.cs.illinois.edu/page/publication_view/199)

Из работы с данными CoNLL 2003 года я знаю, что

B stands for 'beginning' (signifies beginning of an NE)
I stands for 'inside' (signifies that the word is inside an NE)
O stands for 'outside' (signifies that the word is just a regular word outside of an NE)

Хотя мне сказали, что слова в BILOU означают

B - 'beginning'
I - 'inside'
L - 'last'
O - 'outside'
U - 'unit'

Я также видел людей, ссылающихся на другой тег

E - 'end', use it concurrently with the 'last' tag
S - 'singleton', use it concurrently with the 'unit' tag

Я довольно новичок в литературе NER, но я не смог найти что-то, что четко объясняет эти теги. Мои вопросы, в частности, касаются разницы между тегами 'last' и 'end' и тем, что обозначает тег 'unit'.

6 ответов

Решение

Основываясь на проблеме и патче в Clear TK, кажется, что BILOU расшифровывается как "Начальный, Внутренний и Последний токены многокомпонентных блоков, Блок-блоков и Внешних элементов" (выделение добавлено). Например, чанки обозначены скобками

(foo foo foo) (bar) no no no (bar bar)

может быть закодирован с BILOU как

B-foo, I-foo, L-foo, U-bar, O, O, O, B-bar, L-bar

Я хотел бы добавить некоторый опыт сравнения схем BIO и BILOU. Мой эксперимент проводился только на одном наборе данных и, возможно, не является репрезентативным.

Мой набор данных содержит около 35 тысяч коротких высказываний (2-10 токенов) и аннотируется с использованием 11 различных тегов. Другими словами, есть 11 именованных объектов.

Используемые функции включают в себя слово, левую и правую 2-граммы, 1-5 символьных диаграмм (кроме средних), элементы формы и так далее. Немногие юридические лица также поддерживаются газетой.

Я перетасовал набор данных и разделил его на 80/20 частей: обучение и тестирование. Этот процесс был повторен 5 раз, и для каждого объекта я записал Точность, Отзыв и Измерение F1. Производительность измерялась на уровне организации, а не на уровне токенов, как в статье Ratinov & Roth, 2009.

Программное обеспечение, которое я использовал для обучения модели - CRFSuite. Я использовал L-BFGS решатель с c1=0 и c2=1.

Прежде всего, результаты тестов, сравниваемые для 5 крат, очень похожи. Это означает, что есть небольшая изменчивость от бега к бегу, и это хорошо. Во-вторых, схема BIO выполняется очень похоже на схему BILOU. Если есть какая-либо существенная разница, возможно, она находится на третьей или четвертой цифре после периода в точных, повторных и F1-измерениях.

Вывод: в моем эксперименте схема BILOU не лучше (но и не хуже) схемы BIO.

B = Beginning
I/M = Inside / Middle
L/E = Last / End
O = Outside
U/W = Unit-length / Whole

BILOU то же самое с BMEWO.

Существует также BMEWO+, который добавляет больше информации об окружающем классе слов к внешним токенам (таким образом, "O плюс")

Подробности смотрите здесь https://lingpipe-blog.com/2009/10/14/coding-chunkers-as-taggers-io-bio-bmewo-and-bmewo/

Это просто дает больше контекста для ваших тегов, указывающих, какая часть объекта.

       BILOU Method/Schema

 | ------|--------------------|
 | BEGIN | The first token    |
 | ------|--------------------| 
 | IN    | An inner token     |
 | ------|--------------------|
 | LAST  | The final token    |
 | ------|--------------------|
 | Unit  | A single-token     |
 | ------|--------------------|
 | Out   | A non-entity token |
 | ------|--------------------|

BIOES

Более сложный метод аннотации различает конец именованной сущности и отдельные сущности. Этот метод называется BIOES для Begin, Inside, Outside, End, Single.


IOB (например, CoNLL 2003)

IOB (или BIO) означает начало, внутри и снаружи. Слова, помеченные знаком O, находятся за пределами именованных сущностей.


для более подробной информации пройдите по ссылке ниже

          URL : https://en.wikipedia.org/wiki/Inside%E2%80%93outside%E2%80%93beginning_(tagging)

    URL :https://towardsdatascience.com/deep-learning-for-ner-1-public-datasets-and-annotation-methods-8b1ad5e98caf

BIO такой же как BILOU за исключением следующих пунктов:

  1. В BILOU, последний I тег в конкретном I "кластер" будет преобразован в L. Например.
BIO - B-foo, I-foo, I-foo, O, O, O, B-bar, I-bar
BILOU - B-foo, I-foo, L-foo, O, O, O, B-bar, L-bar
  1. В BILOU, любой автономный тег преобразуется в Uтег. Например.
BIO - B-foo, O, O, O, B-bar
BILOU - U-foo, O, O, O, U-bar

Ниже приведен набор одинаковых тегов, представленных в обоих BIO и BILOU обозначения:

BIO - B-foo, I-foo, I-foo, O, O, B-bar, I-bar, O, B-bar, O
BILOU - B-foo, I-foo, L-foo, O, O, B-bar, L-bar, O, U-bar, O
  • B - "начать"
  • Я - "внутри"
  • L - "последний"
  • O - 'вне / прочее'
  • U - "униграмма"
Другие вопросы по тегам