Является ли Heritrix Crawl детерминированным?
Допустим, есть сайт abc.com, и мы сканируем abc.com на 100 страниц, как показано ниже.
День 1: создайте задание сканирования в heritrix, указав maxDocumentsToDownload как 100. День 2: клонируйте указанное выше задание в heritrix и запустите.
Если веб-сайт не меняется в течение двух дней, получу ли я те же 100 страниц или другой набор из 100 страниц?
В случае, если требуется дополнительная информация, пожалуйста, дайте мне знать
Спасибо, Хариш
1 ответ
После клонирования задания на 2-й день оно будет в основном загружать тот же набор страниц, если только сайт (веб-страницы) не будет обновлен. С другой стороны, во время выполнения задания Heritrix старается не сканировать одну и ту же страницу дважды. Потому что abc.com и abc.com/index могут указывать на одно и то же webp