Адаптируете StanfordCoreNLP для обработки шумного веб-текста?

Question

Адаптируете StanfordCoreNLP для обработки шумного веб-текста?

Я пробовал NER StanfordCoreNLP и все вручную на веб-сайте, и, кажется, они зависят от очень специфических / правильных подсказок английского языка, например, для обнаружения объектов. При работе с веб-текстом, где вы могли бы иметь такой текст, как

Джон Доу

Доцент кафедры информатики

Стэндфордский Университет

StanfordNLP, похоже, испытывает некоторые проблемы (маркируя все это как одну организацию из-за отсутствия предлогов / знаков препинания). Могу ли я что-нибудь сделать, чтобы NER мог лучше обрабатывать этот тип текста (например, запрограммировать некоторую предварительную обработку текста)?

2

java nlp stanford-nlp named-entity-recognition named-entity-extraction

Источник

user1810854 06 дек '13 в 02:43

1 ответ

Другие вопросы по тегам java nlp stanford-nlp named-entity-recognition named-entity-extraction

user1166469 18 июл '14 в 05:03 2014-07-18 05:03 · Answer 1 · 2014-07-18 05:03

Добавление точки (.) В конце каждой строки дает лучшие результаты. (Поскольку разделитель предложений использует точку в качестве разделителя)

0

Источник

user1166469 18 июл '14 в 05:03