Nutch - это хорошо продуманный, готовый к работе веб-сканер. Nutch обеспечивает тонкую настройку, полагаясь на структуры данных Apache Hadoop™, которые отлично подходят для пакетной обработки.

Nutch - это программа для веб-поиска с открытым исходным кодом. Он построен на основе Hadoop, добавляя специфические веб-особенности, такие как поисковый робот, база данных графа ссылок, парсеры для HTML и других форматов документов и т. Д.

Nutch может работать на одной машине, но большую часть своей силы он получает от работы в кластере Hadoop.

Система может быть улучшена (например, другие форматы документов могут быть проанализированы или извлечена пользовательская информация) с помощью механизма плагинов.

Для получения дополнительной информации о Nutch см. Вики Nutch.

У Nutch есть список рассылки, где пользователи могут задавать вопросы, а разработчики могут отвечать. Иногда быстрее получить ответ там.

Как работает Nutch: https://stackru.com/images/83afdbf1cc45614901b15f92ecdf6fef1ecab8cb.png