Learnig NER используя список категорий
В шаблон для обучения CRF++, как включить пользовательский dictionary.txt
файл для перечисленных компаний, другой для популярных европейских продуктов, например, или просто для любой категории.
Затем предоставьте примерные данные обучения для каждой категории, где он узнает, как эти конкретные именованные объекты используются в контексте для этой категории.
Таким образом, я, как и система, могу быть уверен, что она правильно поняла, как определенные именованные объекты структурированы в тексте, будь то твит или новость, получившая Пулитцеровскую новость, вместо предоставления сотен мегабайт данных.
Это было бы довольно круто. Модель будет иметь определенный словарь известных объектов (который не нуждается в расширении) и статистический подход к тому, как эти известные объекты структурированы в человеческом тексте.
PS - Просто для ясности, а не жажду регулярных выражений. Это здорово, только если у вас много словаря, много правил и много скучного времени.
1 ответ
Я думаю, о чем вы говорите, это список Gazetteers (dictionary.txt).
Вам нужно будет включить соответствующую функцию для слова в обучающие данные, а затем указать его в файле шаблона.
Например: Ваш список содержит объект: Hershey's
и данные обучения имеют предложение: I like Hershey's chocolates.
Поэтому, когда вы упорядочиваете данные в формате CoNLL (для CRF++), вы можете добавить столбец (который должен иметь значения 0 или 1, указывающий, что слово присутствует в словаре), который будет иметь значение 0 для всех слов, кроме слова Херши. Вы также должны включить этот столбец как функцию в файл шаблона.
Чтобы лучше понять файл шаблона и обучение NER с помощью CRF++, вы можете посмотреть видео ниже и прокомментировать свои сомнения:)
1) https://youtu.be/GJHeTvDkIaE
2) https://youtu.be/Ur5umC4BwN4
РЕДАКТИРОВАТЬ: (после просмотра комментария ОП)
Образец обучающих данных с дополнительными функциями: https://pastebin.com/fBgu8c67 Я добавил 3 функции. IsCountry
Значение признака ( 1 или 0) можно получить из списка стран, публикуемых в Бюллетене. Другие 2 функции могут быть вычислены в автономном режиме. Обратите внимание, что заголовки добавляются в файл только для справки, не должны быть включены в файл данных обучения.
Образец файла шаблона для вышеуказанных данных: https://pastebin.com/LPvAGCVL
Обратите внимание, что тестовые данные также должны быть в том же формате, что и данные поезда, с теми же характеристиками / тем же количеством столбцов.