Запрещение токенов содержать пробел в Stanford CoreNLP
Есть ли опция в токенайзере Stanford CoreNLP, чтобы токены не содержали пробел?
Например, если предложение "мой телефон 617 1555-6644", подстрока "617 1555" должна быть в двух разных токенах.
Я знаю о возможности normalizeSpace
:
normalizeSpace: превращаются ли любые пробелы в токенах (номера телефонов, дроби в U+00A0 (неразрывный пробел). Опасно отключать это для большей части нашего программного обеспечения Stanford NLP, которое не предполагает пробелов в токенах.
но я не хочу, чтобы токены содержали пробел, включая неразрывный пробел.
1 ответ
Вы можете попробовать установить tokenize.whitespace
вариант true, но это будет токенизировать всегда и только на пустом месте. Например, "это" больше не будет токенизироваться на "это".