CRF++/Wapiti включают категорию всего предложения в качестве функции
Как я могу представить категорию предложения, предсказанную наивным Байесом, как функцию в CRF++ или Wapiti?
Например, если предложение, Tumblr merges with Yahoo.
, классифицируется как Business
затем при составлении обучающего файла для crf, где я могу указать метку Business
как особенность? И как тогда шаблон должен быть смоделирован?
Должен ли файл поезда быть таким
Tumblr business ORG
merges business O
with business O
Yahoo business ORG
Или только включить категорию с ORG
этикетка? Как так? А файл шаблона?
2 ответа
Способ 1: вы можете добавить business
как особенность так же, как вы показали, или вы можете просто написать 1
вместо business
, Аналогично для категории sports
Вы можете добавить еще один столбец, и значение в этом столбце должно быть 1
для слов, принадлежащих к спортивному предложению. Вы также должны будете добавить каждый столбец в файл шаблона, соответственно.
U42:%x[0,1] #for business
U43:%x[0,2] #for sports
Способ 2. Включение категории в ORG может быть не очень хорошей идеей, поскольку один и тот же ORG может появляться в разных категориях.
Насколько я знаю, ваш обучающий файл - единственный способ включить аннотацию на уровне предложений, если только вы не подумаете об адаптации / реализации CRF, учитывающей особенности уровня предложений.
Если у вас достаточно обучающих данных и ограниченного числа категорий, этот метод, вероятно, будет влиять на категории с низким весом для предложения: он будет использоваться для различения именованных объектов, когда они неоднозначны и когда вычисленные вероятности категорий NE как-то близки.
Лучше всего будет тренироваться с / без этой функции и посмотреть, улучшит ли она NER! Должны быть интересные эксперименты:)