Запрещение токенов содержать пробел в Stanford CoreNLP

Есть ли опция в токенайзере Stanford CoreNLP, чтобы токены не содержали пробел?

Например, если предложение "мой телефон 617 1555-6644", подстрока "617 1555" должна быть в двух разных токенах.

Я знаю о возможности normalizeSpace:

normalizeSpace: превращаются ли любые пробелы в токенах (номера телефонов, дроби в U+00A0 (неразрывный пробел). Опасно отключать это для большей части нашего программного обеспечения Stanford NLP, которое не предполагает пробелов в токенах.

но я не хочу, чтобы токены содержали пробел, включая неразрывный пробел.

1 ответ

Вы можете попробовать установить tokenize.whitespace вариант true, но это будет токенизировать всегда и только на пустом месте. Например, "это" больше не будет токенизироваться на "это".

Другие вопросы по тегам