Приоритизация рекурсивного сканирования в Storm Crawler
При сканировании во всемирной сети я хотел бы предоставить своему сканеру начальный начальный список URL-адресов и ожидать, что мой сканер автоматически "обнаружит" новые исходные URL-адреса из Интернета во время сканирования.
Я вижу такую опцию в Apach Nutch (см. Параметр topN в генерации команды nutch). Есть ли такая опция в Storm Crawler?
1 ответ
StormCrawler может обрабатывать рекурсивные обходы, и способ определения приоритетов URL-адресов зависит от серверной части, используемой для хранения URL-адресов.
Например, для этого можно использовать модуль Elasticsearch, см. README для краткого учебного пособия и пример файла конфигурации, где по умолчанию носики сортируют URL-адреса на основе их nextFetchDate (**. Sort.field*).
В Nutch аргумент -topN указывает только максимальное количество URL-адресов, которые нужно разместить в следующем сегменте (на основе оценок, предоставленных любым используемым плагином оценки). С StormCrawler нам на самом деле не нужен эквивалент, так как вещи не обрабатываются партиями, сканирование выполняется непрерывно.