Обучение CRF без границ предложения

Мне нужно пометить части текста в документе HTML. Тем не менее, он в основном состоит из текста в виде дат, названий компаний, адресов и т. Д. Я планирую использовать CRF (sklearn-crfsuite)

Моя проблема в том, что сложно разбить набор данных на предложения. Можем ли мы обучить модель CRF без границ предложения, рассматривая все как одну последовательность? Обучающие программы в CRFSuite или sklearn-crfsuite не говорят об этом.

Если это невозможно сделать без сегментации предложений, есть ли намеки на то, как разделить такие тексты на предложения?

Данные примерно такие: (я не могу поделиться фактическими данными)

1 ответ

Да, вы можете тренироваться без разделения входной последовательности на предложения - просто используйте большую последовательность для всего. Например, https://github.com/scrapinghub/webstruct делает это для HTML-страниц.

Разбиение последовательности в предложениях дает дополнительную информацию (жесткие границы), но CRF может работать без нее. Смотрите также: https://stats.stackexchange.com/questions/197291/sequence-length-when-training-a-conditional-random-field-crf.

Другие вопросы по тегам