Явные специальные символы от сканирования
Работа над Storm Crawler 1.13 и упругий поиск 6.5.2. Как ограничить сканер, чтобы не сканировать / индексировать специальные символы � � � � � ��� �� � •
1 ответ
Решение
Простой способ сделать это - написать ParseFilter как
ParseData pd = parse.get(URL);
String text = pd.getText();
// remove chars
pd.setText(text);
Это будет вызвано для документов, проанализированных JSoup или Tika. Посмотрите на фильтры разбора в репозитории для примеров.