Адаптируете StanfordCoreNLP для обработки шумного веб-текста?
Я пробовал NER StanfordCoreNLP и все вручную на веб-сайте, и, кажется, они зависят от очень специфических / правильных подсказок английского языка, например, для обнаружения объектов. При работе с веб-текстом, где вы могли бы иметь такой текст, как
Джон Доу
Доцент кафедры информатики
Стэндфордский Университет
StanfordNLP, похоже, испытывает некоторые проблемы (маркируя все это как одну организацию из-за отсутствия предлогов / знаков препинания). Могу ли я что-нибудь сделать, чтобы NER мог лучше обрабатывать этот тип текста (например, запрограммировать некоторую предварительную обработку текста)?
1 ответ
Добавление точки (.) В конце каждой строки дает лучшие результаты. (Поскольку разделитель предложений использует точку в качестве разделителя)