Запрещение токенов содержать пробел в Stanford CoreNLP

Question

Запрещение токенов содержать пробел в Stanford CoreNLP

Есть ли опция в токенайзере Stanford CoreNLP, чтобы токены не содержали пробел?

Например, если предложение "мой телефон 617 1555-6644", подстрока "617 1555" должна быть в двух разных токенах.

Я знаю о возможности normalizeSpace:

normalizeSpace: превращаются ли любые пробелы в токенах (номера телефонов, дроби в U+00A0 (неразрывный пробел). Опасно отключать это для большей части нашего программного обеспечения Stanford NLP, которое не предполагает пробелов в токенах.

но я не хочу, чтобы токены содержали пробел, включая неразрывный пробел.

1

nlp stanford-nlp tokenize

Источник

user395857 06 апр '16 в 02:36

1 ответ

Другие вопросы по тегам nlp stanford-nlp tokenize

user1473431 06 апр '16 в 05:55 2016-04-06 05:55 · Answer 1 · 2016-04-06 05:55

Вы можете попробовать установить tokenize.whitespace вариант true, но это будет токенизировать всегда и только на пустом месте. Например, "это" больше не будет токенизироваться на "это".

1

Источник

user1473431 06 апр '16 в 05:55