Формат набора данных Wapiti/CRF++
Чтобы быть в безопасности и увидеть плоды кропотливой работы, какие особенности данных должны быть правильно отформатированы?
У меня есть этот набор данных и шаблон, помеченные вручную для NER.
Что касается обучения CRF++, то тестирование сгенерированной моделью дает 0%
правильные результаты. Результаты были такими же, используя Wapiti.
Вопрос, должен ли файл шаблона быть изменен? Или обязательно добавить POS-теги в набор обучающих данных.
Кроме того, если модель должна сбрасывать со счетов регистр слов при маркировке, должен ли обучающий набор данных полностью отражать это, чтобы обеспечить соблюдение нижнего регистра. Но не повлияет ли это на определенные предложения, которые получают значение из заглавных букв.
Немного неясно в этом отношении.
PS - Ориентация на модель, например, http://cliff.mediameter.org/, где NER помечается независимо от корпуса. Но не могу использовать их модель.
1 ответ
Обучающие данные слишком малы (едва 47 предложений) и формат также неправильный, потому что предложения заканчиваются пустыми строками, а ваши заканчиваются пробелом-табуляцией, что может привести к тому, что crf++ изучит весь файл как одно предложение.
Попробуйте это http://paste.ubuntu.com/24537692/
Кроме того, не могли бы вы поделиться своими тестовыми данными?