Обучение CRF без границ предложения
Мне нужно пометить части текста в документе HTML. Тем не менее, он в основном состоит из текста в виде дат, названий компаний, адресов и т. Д. Я планирую использовать CRF (sklearn-crfsuite)
Моя проблема в том, что сложно разбить набор данных на предложения. Можем ли мы обучить модель CRF без границ предложения, рассматривая все как одну последовательность? Обучающие программы в CRFSuite или sklearn-crfsuite не говорят об этом.
Если это невозможно сделать без сегментации предложений, есть ли намеки на то, как разделить такие тексты на предложения?
Данные примерно такие: (я не могу поделиться фактическими данными)
1 ответ
Да, вы можете тренироваться без разделения входной последовательности на предложения - просто используйте большую последовательность для всего. Например, https://github.com/scrapinghub/webstruct делает это для HTML-страниц.
Разбиение последовательности в предложениях дает дополнительную информацию (жесткие границы), но CRF может работать без нее. Смотрите также: https://stats.stackexchange.com/questions/197291/sequence-length-when-training-a-conditional-random-field-crf.