StormCrawler выполняет действие при завершении сканирования одного домена

Я хочу выполнить действие (в моем случае отправить кортеж на один болт), когда сканер завершит сканирование одного домена.

Я видел, что StormCrawler может даже посетить веб-сайт после определенного интервала. В каком компоненте или как можно увидеть, когда завершается сканирование одного домена в сценарии сканирования нескольких доменов одновременно?

Моя текущая установка использует StormCrawler с Elasticsearch и Kibana.

2 ответа

Решение

Я реализовал пользовательский болт, который следует первому подходу, но также может быть расширен или модифицирован для второго подхода, упомянутого в ответе Жюльена Ниоша.

См. "Когда я узнаю, когда сканирование завершено?" в FAQ.

Я видел, что StormCrawler может даже посетить веб-сайт после определенного интервала.

StormCrawler не планирует веб-сайты как таковые, но отдельные URL-адреса.

В каком компоненте или как можно увидеть, когда завершается сканирование одного домена в сценарии сканирования нескольких доменов одновременно?

В зависимости от количества сайтов, которые вы сканируете, вы можете написать собственный болт, который будет запрашивать у ES все имена хостов в индексе состояния и обнаруживать те, у которых больше нет URL-адресов со статусом DISCOVERED.

В качестве альтернативы, пользовательский болт, который будет отслеживать просматриваемые вами сайты и запускать действие всякий раз, когда за последние N минут не будет получен URL для определенного сайта.

Другие вопросы по тегам