Nutch против Heritrix против Stormcrawler против MegaIndex против Mixnode

Question

Nutch против Heritrix против Stormcrawler против MegaIndex против Mixnode

Нам нужно сканировать большое количество (~1,5 миллиарда) веб-страниц каждые две недели. Скорость, а значит и стоимость, являются для нас огромным фактором, так как наши первоначальные попытки обошлись нам в 20 тысяч долларов.

Есть ли данные о том, какой сканер лучше всего работает в распределенной среде?

5

web-crawler nutch stormcrawler heritrix

Источник

user5679375 10 окт '17 в 18:41

2 ответа

Другие вопросы по тегам web-crawler nutch stormcrawler heritrix

user5005586 11 апр '18 в 14:39 2018-04-11 14:39 · Answer 1 · 2018-04-11 14:39

Мы пробовали только Nutch, Stormcrawler и MixNode. В конечном итоге мы использовали mixnode для сканирования ~300 миллионов страниц по 5k доменам.

Мой 0,02 доллара: mixnode - лучший выбор для сканирования больших масштабов (более 1 миллиона URL). Для меньших сканирований это излишнее, так как вам придется анализировать получившиеся файлы warc, и если вы делаете только несколько тысяч страниц, проще запустить собственный сценарий или использовать альтернативу с открытым исходным кодом, такую как Nutch или StormCrawler (или даже Scrapy),

user432844 10 окт '17 в 21:52 2017-10-10 21:52 · Answer 2 · 2017-10-10 21:52

Для сравнения между Nutch и StormCrawler см. Мою статью о dzone.

Heritrix можно использовать в распределенном режиме, но в документации не очень ясно, как это сделать. Предыдущие 2 полагаются на хорошо зарекомендовавшие себя платформы для распределения вычислений (Apache Hadoop и Apache Storm соответственно), но это не относится к Heritrix.

Heritrix также используется в основном сообществом архиваторов, тогда как Nutch и StormCrawler используются для более широкого круга случаев (например, индексация, очистка) и имеют больше ресурсов для извлечения данных.

Я не знаком с упомянутыми вами двумя размещенными сервисами, так как использую только программное обеспечение с открытым исходным кодом.