Может ли Python Flair интерпретировать прерывистые аннотации?

Я работаю над обучением модели последовательной маркировки в Python Flair. Мои необработанные текстовые данные содержат концептуальные фразы, которые я хочу, чтобы модель могла идентифицировать, которые в некоторых случаях представлены набором токенов, которые не являются непрерывными со словами между ними. Примером является "замена калия и магния", где "замена калия" является одной концепцией, которая представлена ​​прерывистыми жетонами, а "замена магния" является другой концепцией, которая является непрерывной, но перекрывает первую. Я обучил другую модель Flair, где все концепции могут быть представлены одним токеном, и создание корпусных файлов CoNLL для этих данных было довольно простым. В этом случае прерывистые и перекрывающиеся концепции поднимают 3 вопроса:

  1. Признает ли модель последовательной маркировки Flair концепции с несколькими токенами, такие как "замена магния", как единую концепцию, если я соответствующим образом отмечу ее в файле CoNLL как:

"магний B-CONC1

замена I-CONC1"

  1. Признает ли он прерывистые понятия как "замену калия" в приведенной выше фразе:

"калий B-CONC2

и O

магний О

замена I-CONC2"

  1. Как я могу представить перекрывающиеся понятия в файле CoNLL? Есть ли альтернативный способ представления корпуса с необработанным текстом и списком начальных / конечных индексов?

PS Это должно быть довольно ясно в контексте, но под понятием слова я подразумеваю одно- или многозначный тег / термин, который я пытаюсь обучить модели идентифицировать.

Я ценю ваш совет или информацию

1 ответ

Flair не поддерживает прерывистые и перекрывающиеся аннотации. Подробнее на https://github.com/zalandoresearch/flair/issues/824

Другие вопросы по тегам