Использование Nutch для сканирования указанного списка URL

У меня есть один миллион URL-адресов для получения. Я использую этот список как семена орехов и использую базовую команду сканирования Nutch для их извлечения. Тем не менее, я считаю, что Nutch автоматически выбирает URL, которых нет в списке. Я устанавливаю параметры сканирования как -depth 1 -topN 1000000. Но это не работает. Кто-нибудь знает как это сделать?

2 ответа

Решение

Установите это свойство в nutch-site.xml, (по умолчанию это правда, поэтому он добавляет ссылки на crawldb)

<property>
  <name>db.update.additions.allowed</name>
  <value>false</value>
  <description>If true, updatedb will add newly discovered URLs, if false
  only already existing URLs in the CrawlDb will be updated and no new
  URLs will be added.
  </description>
</property>
  • Удалить каталог сканирования и URL (если он был создан ранее)
  • Создайте и обновите начальный файл (где URL-адреса указаны 1URL на строку)
  • Перезапустите процесс сканирования

команда

nutch crawl urllist -dir crawl -depth 3 -topN 1000000
  • urllist - каталог, в котором находится начальный файл (список URL)
  • crawl - имя каталога

Даже если проблема не устранена, попробуйте удалить папку Nutch и перезапустить весь процесс.

Другие вопросы по тегам