Nutch против Heritrix против Stormcrawler против MegaIndex против Mixnode
Нам нужно сканировать большое количество (~1,5 миллиарда) веб-страниц каждые две недели. Скорость, а значит и стоимость, являются для нас огромным фактором, так как наши первоначальные попытки обошлись нам в 20 тысяч долларов.
Есть ли данные о том, какой сканер лучше всего работает в распределенной среде?
2 ответа
Мы пробовали только Nutch, Stormcrawler и MixNode. В конечном итоге мы использовали mixnode для сканирования ~300 миллионов страниц по 5k доменам.
Мой 0,02 доллара: mixnode - лучший выбор для сканирования больших масштабов (более 1 миллиона URL). Для меньших сканирований это излишнее, так как вам придется анализировать получившиеся файлы warc, и если вы делаете только несколько тысяч страниц, проще запустить собственный сценарий или использовать альтернативу с открытым исходным кодом, такую как Nutch или StormCrawler (или даже Scrapy),
Для сравнения между Nutch и StormCrawler см. Мою статью о dzone.
Heritrix можно использовать в распределенном режиме, но в документации не очень ясно, как это сделать. Предыдущие 2 полагаются на хорошо зарекомендовавшие себя платформы для распределения вычислений (Apache Hadoop и Apache Storm соответственно), но это не относится к Heritrix.
Heritrix также используется в основном сообществом архиваторов, тогда как Nutch и StormCrawler используются для более широкого круга случаев (например, индексация, очистка) и имеют больше ресурсов для извлечения данных.
Я не знаком с упомянутыми вами двумя размещенными сервисами, так как использую только программное обеспечение с открытым исходным кодом.