Явные специальные символы от сканирования

Работа над Storm Crawler 1.13 и упругий поиск 6.5.2. Как ограничить сканер, чтобы не сканировать / индексировать специальные символы � � � � � ��� �� � •

1 ответ

Решение

Простой способ сделать это - написать ParseFilter как

        ParseData pd = parse.get(URL);
        String text = pd.getText();
        // remove chars
        pd.setText(text);

Это будет вызвано для документов, проанализированных JSoup или Tika. Посмотрите на фильтры разбора в репозитории для примеров.

Другие вопросы по тегам