Исправление неправильной пунктуации в CommonCrawl Text
Я обрабатываю текст из общего сканирования (WET
формат) и из того, что я вижу, есть много пунктуации - скорее всего, это произошло, когда разрывы строк были удалены из исходных данных.
Например, в This Massive Rally?The 52
, знак вопроса и The
должен быть отделен пробелом. Я пытаюсь решить эту проблему с помощью следующего регулярного выражения (в Java):
line.replaceAll("([.;:,!?)])([A-Z])", "$1 $2");
Хотя он обрабатывает большинство случаев правильно, он добавляет пробелы в местах, где он не должен, например, U.S.
становится U. S.
или же www.HiringJobTweets.com
становится www. HiringJobTweets.com
,
Есть ли способ решить проблему, избегая нежелательных побочных эффектов?