Может ли Stanford Parser игнорировать регистр?

Question

Может ли Stanford Parser игнорировать регистр?

Я играл с http://corenlp.run/ и заметил, что он чувствителен к регистру. Например, он помечает "i" как FW против "I" как PRP. Могу ли я научить его игнорировать дело? В более общем смысле, как мне обучить его не правильно сформированным предложениям?

1

stanford-nlp stanford-parser

Источник

user1170883 21 апр '17 в 19:06

1 ответ

Решение

Другие вопросы по тегам stanford-nlp stanford-parser

user1413133 21 апр '17 в 19:23 2017-04-21 19:23 · Accepted Answer · 2017-04-21 19:23

CorenNLP предлагает модели без учета регистра, которые вы можете использовать только для английского языка. Они называют их безусловными моделями. Прочитайте предупреждение там, если вы используете версию 3.6.0

Пара моментов, упомянутых в ссылке:

Вы можете исправить регистр букв в вашем тексте и использовать обычные модели. Вы можете использовать TrueCaseAnnotator для этого.
Для обучения ваших собственных моделей без учета регистра с CoreNLP вы можете указать препроцессор токена, который игнорирует регистр
```
wordFunction = edu.stanford.nlp.process.LowercaseFunction
```