Nutch против Heritrix против Stormcrawler против MegaIndex против Mixnode

Нам нужно сканировать большое количество (~1,5 миллиарда) веб-страниц каждые две недели. Скорость, а значит и стоимость, являются для нас огромным фактором, так как наши первоначальные попытки обошлись нам в 20 тысяч долларов.

Есть ли данные о том, какой сканер лучше всего работает в распределенной среде?

2 ответа

Мы пробовали только Nutch, Stormcrawler и MixNode. В конечном итоге мы использовали mixnode для сканирования ~300 миллионов страниц по 5k доменам.

Мой 0,02 доллара: mixnode - лучший выбор для сканирования больших масштабов (более 1 миллиона URL). Для меньших сканирований это излишнее, так как вам придется анализировать получившиеся файлы warc, и если вы делаете только несколько тысяч страниц, проще запустить собственный сценарий или использовать альтернативу с открытым исходным кодом, такую ​​как Nutch или StormCrawler (или даже Scrapy),

Для сравнения между Nutch и StormCrawler см. Мою статью о dzone.

Heritrix можно использовать в распределенном режиме, но в документации не очень ясно, как это сделать. Предыдущие 2 полагаются на хорошо зарекомендовавшие себя платформы для распределения вычислений (Apache Hadoop и Apache Storm соответственно), но это не относится к Heritrix.

Heritrix также используется в основном сообществом архиваторов, тогда как Nutch и StormCrawler используются для более широкого круга случаев (например, индексация, очистка) и имеют больше ресурсов для извлечения данных.

Я не знаком с упомянутыми вами двумя размещенными сервисами, так как использую только программное обеспечение с открытым исходным кодом.

Другие вопросы по тегам