Автоматическое удаление извлеченных записей при возникновении ошибки Fetch_Error

Работая над Storm Crawler 1.13, он успешно запустил сканер на веб-сайте, и одна из страниц была удалена на веб-сайте, а в соответствии с crawler-conf при следующем повторном посещении индекс состояния обновляется как FETCH_ERROR для отсутствующего URL- адреса, и когда я проверяю в основной индекс запись все еще там с этим URL. Как я могу удалить эту запись автоматически, когда появляется FETCH_ERROR.

1 ответ

Решение

Состояние FETCH_ERROR преобразуется в ОШИБКУ после нескольких последовательных попыток (устанавливается fetch.error.count). Как только это произойдет, кортеж отправляется в потоке удаления с помощью AbstractStatusUpdaterBolt, и если у вас подключен DeletionBolt, то URL-адрес будет удален из индекса содержимого Elasticsearch. Это останется в индексе состояния, хотя и будет пересмотрено или не основано на расписании для ОШИБК.

Другие вопросы по тегам