StormCrawler выполняет действие при завершении сканирования одного домена
Я хочу выполнить действие (в моем случае отправить кортеж на один болт), когда сканер завершит сканирование одного домена.
Я видел, что StormCrawler может даже посетить веб-сайт после определенного интервала. В каком компоненте или как можно увидеть, когда завершается сканирование одного домена в сценарии сканирования нескольких доменов одновременно?
Моя текущая установка использует StormCrawler с Elasticsearch и Kibana.
2 ответа
Я реализовал пользовательский болт, который следует первому подходу, но также может быть расширен или модифицирован для второго подхода, упомянутого в ответе Жюльена Ниоша.
См. "Когда я узнаю, когда сканирование завершено?" в FAQ.
Я видел, что StormCrawler может даже посетить веб-сайт после определенного интервала.
StormCrawler не планирует веб-сайты как таковые, но отдельные URL-адреса.
В каком компоненте или как можно увидеть, когда завершается сканирование одного домена в сценарии сканирования нескольких доменов одновременно?
В зависимости от количества сайтов, которые вы сканируете, вы можете написать собственный болт, который будет запрашивать у ES все имена хостов в индексе состояния и обнаруживать те, у которых больше нет URL-адресов со статусом DISCOVERED.
В качестве альтернативы, пользовательский болт, который будет отслеживать просматриваемые вами сайты и запускать действие всякий раз, когда за последние N минут не будет получен URL для определенного сайта.