Может ли Python Flair интерпретировать прерывистые аннотации?
Я работаю над обучением модели последовательной маркировки в Python Flair. Мои необработанные текстовые данные содержат концептуальные фразы, которые я хочу, чтобы модель могла идентифицировать, которые в некоторых случаях представлены набором токенов, которые не являются непрерывными со словами между ними. Примером является "замена калия и магния", где "замена калия" является одной концепцией, которая представлена прерывистыми жетонами, а "замена магния" является другой концепцией, которая является непрерывной, но перекрывает первую. Я обучил другую модель Flair, где все концепции могут быть представлены одним токеном, и создание корпусных файлов CoNLL для этих данных было довольно простым. В этом случае прерывистые и перекрывающиеся концепции поднимают 3 вопроса:
- Признает ли модель последовательной маркировки Flair концепции с несколькими токенами, такие как "замена магния", как единую концепцию, если я соответствующим образом отмечу ее в файле CoNLL как:
"магний B-CONC1
замена I-CONC1"
- Признает ли он прерывистые понятия как "замену калия" в приведенной выше фразе:
"калий B-CONC2
и O
магний О
замена I-CONC2"
- Как я могу представить перекрывающиеся понятия в файле CoNLL? Есть ли альтернативный способ представления корпуса с необработанным текстом и списком начальных / конечных индексов?
PS Это должно быть довольно ясно в контексте, но под понятием слова я подразумеваю одно- или многозначный тег / термин, который я пытаюсь обучить модели идентифицировать.
Я ценю ваш совет или информацию
1 ответ
Flair не поддерживает прерывистые и перекрывающиеся аннотации. Подробнее на https://github.com/zalandoresearch/flair/issues/824