Исправление неправильной пунктуации в CommonCrawl Text

Я обрабатываю текст из общего сканирования (WET формат) и из того, что я вижу, есть много пунктуации - скорее всего, это произошло, когда разрывы строк были удалены из исходных данных.

Например, в This Massive Rally?The 52, знак вопроса и The должен быть отделен пробелом. Я пытаюсь решить эту проблему с помощью следующего регулярного выражения (в Java):

line.replaceAll("([.;:,!?)])([A-Z])", "$1 $2");

Хотя он обрабатывает большинство случаев правильно, он добавляет пробелы в местах, где он не должен, например, U.S. становится U. S. или же www.HiringJobTweets.com становится www. HiringJobTweets.com,

Есть ли способ решить проблему, избегая нежелательных побочных эффектов?

0 ответов

Другие вопросы по тегам