"отрицательные примеры" для пространственного обучения передаче NER?

Я хочу обучить модель spacy v2 NER на своих собственных ярлыках, для которых я просканировал текст с разных веб-страниц. При сканировании, конечно же, есть много текста, который является просто мусором и не содержит никакой информации, но, к счастью, в большинстве случаев это тот же самый текст, потому что он сканируется из некоторого новостного канала, который интегрирован в веб-страницы.

Поэтому мой вопрос заключается в том, могу ли я использовать "мусорную часть" просканированного текста как своего рода негативный пример для изучения модели? То есть имеет ли смысл не аннотировать эти части просканированных текстов и передавать их в модель, чтобы модель научилась не аннотировать подобные примеры? В противном случае мне пришлось бы отфильтровать эти примеры вручную для моего поезда / тестового набора, чего я явно не могу сделать, когда модель находится в производстве и должна работать полностью автоматически.

0 ответов

Другие вопросы по тегам