CRF++/Wapiti включают категорию всего предложения в качестве функции

Как я могу представить категорию предложения, предсказанную наивным Байесом, как функцию в CRF++ или Wapiti?

Например, если предложение, Tumblr merges with Yahoo., классифицируется как Businessзатем при составлении обучающего файла для crf, где я могу указать метку Business как особенность? И как тогда шаблон должен быть смоделирован?

Должен ли файл поезда быть таким

Tumblr    business    ORG
merges    business    O
with     business    O
Yahoo    business    ORG

Или только включить категорию с ORG этикетка? Как так? А файл шаблона?

2 ответа

Способ 1: вы можете добавить business как особенность так же, как вы показали, или вы можете просто написать 1 вместо business, Аналогично для категории sports Вы можете добавить еще один столбец, и значение в этом столбце должно быть 1 для слов, принадлежащих к спортивному предложению. Вы также должны будете добавить каждый столбец в файл шаблона, соответственно.

U42:%x[0,1] #for business
U43:%x[0,2] #for sports

Способ 2. Включение категории в ORG может быть не очень хорошей идеей, поскольку один и тот же ORG может появляться в разных категориях.

Насколько я знаю, ваш обучающий файл - единственный способ включить аннотацию на уровне предложений, если только вы не подумаете об адаптации / реализации CRF, учитывающей особенности уровня предложений.

Если у вас достаточно обучающих данных и ограниченного числа категорий, этот метод, вероятно, будет влиять на категории с низким весом для предложения: он будет использоваться для различения именованных объектов, когда они неоднозначны и когда вычисленные вероятности категорий NE как-то близки.

Лучше всего будет тренироваться с / без этой функции и посмотреть, улучшит ли она NER! Должны быть интересные эксперименты:)

Другие вопросы по тегам