Может ли Stanford Parser игнорировать регистр?

Я играл с http://corenlp.run/ и заметил, что он чувствителен к регистру. Например, он помечает "i" как FW против "I" как PRP. Могу ли я научить его игнорировать дело? В более общем смысле, как мне обучить его не правильно сформированным предложениям?

1 ответ

Решение

CorenNLP предлагает модели без учета регистра, которые вы можете использовать только для английского языка. Они называют их безусловными моделями. Прочитайте предупреждение там, если вы используете версию 3.6.0

Пара моментов, упомянутых в ссылке:

  1. Вы можете исправить регистр букв в вашем тексте и использовать обычные модели. Вы можете использовать TrueCaseAnnotator для этого.
  2. Для обучения ваших собственных моделей без учета регистра с CoreNLP вы можете указать препроцессор токена, который игнорирует регистр

    wordFunction = edu.stanford.nlp.process.LowercaseFunction
    
Другие вопросы по тегам