Приоритизация рекурсивного сканирования в Storm Crawler

Question

Приоритизация рекурсивного сканирования в Storm Crawler

При сканировании во всемирной сети я хотел бы предоставить своему сканеру начальный начальный список URL-адресов и ожидать, что мой сканер автоматически "обнаружит" новые исходные URL-адреса из Интернета во время сканирования.

Я вижу такую опцию в Apach Nutch (см. Параметр topN в генерации команды nutch). Есть ли такая опция в Storm Crawler?

1

web-crawler nutch stormcrawler

Источник

user3143538 13 окт '16 в 10:43

1 ответ

Решение

Другие вопросы по тегам web-crawler nutch stormcrawler

user432844 13 окт '16 в 11:19 2016-10-13 11:19 · Accepted Answer · 2016-10-13 11:19

StormCrawler может обрабатывать рекурсивные обходы, и способ определения приоритетов URL-адресов зависит от серверной части, используемой для хранения URL-адресов.

Например, для этого можно использовать модуль Elasticsearch, см. README для краткого учебного пособия и пример файла конфигурации, где по умолчанию носики сортируют URL-адреса на основе их nextFetchDate (**. Sort.field*).

В Nutch аргумент -topN указывает только максимальное количество URL-адресов, которые нужно разместить в следующем сегменте (на основе оценок, предоставленных любым используемым плагином оценки). С StormCrawler нам на самом деле не нужен эквивалент, так как вещи не обрабатываются партиями, сканирование выполняется непрерывно.