Адаптируете StanfordCoreNLP для обработки шумного веб-текста?

Я пробовал NER StanfordCoreNLP и все вручную на веб-сайте, и, кажется, они зависят от очень специфических / правильных подсказок английского языка, например, для обнаружения объектов. При работе с веб-текстом, где вы могли бы иметь такой текст, как


Джон Доу

Доцент кафедры информатики

Стэндфордский Университет


StanfordNLP, похоже, испытывает некоторые проблемы (маркируя все это как одну организацию из-за отсутствия предлогов / знаков препинания). Могу ли я что-нибудь сделать, чтобы NER мог лучше обрабатывать этот тип текста (например, запрограммировать некоторую предварительную обработку текста)?

1 ответ

Добавление точки (.) В конце каждой строки дает лучшие результаты. (Поскольку разделитель предложений использует точку в качестве разделителя)

Другие вопросы по тегам