Описание тега nutch
Nutch - это программа для веб-поиска с открытым исходным кодом. Он построен на основе Hadoop, добавляя специфические веб-особенности, такие как поисковый робот, база данных графа ссылок, парсеры для HTML и других форматов документов и т. Д.
Nutch может работать на одной машине, но большую часть своей силы он получает от работы в кластере Hadoop.
Система может быть улучшена (например, другие форматы документов могут быть проанализированы или извлечена пользовательская информация) с помощью механизма плагинов.
Для получения дополнительной информации о Nutch см. Вики Nutch.
У Nutch есть список рассылки, где пользователи могут задавать вопросы, а разработчики могут отвечать. Иногда быстрее получить ответ там.
Как работает Nutch: https://stackru.com/images/83afdbf1cc45614901b15f92ecdf6fef1ecab8cb.png