Использование Nutch для сканирования указанного списка URL

Question

Использование Nutch для сканирования указанного списка URL

У меня есть один миллион URL-адресов для получения. Я использую этот список как семена орехов и использую базовую команду сканирования Nutch для их извлечения. Тем не менее, я считаю, что Nutch автоматически выбирает URL, которых нет в списке. Я устанавливаю параметры сканирования как -depth 1 -topN 1000000. Но это не работает. Кто-нибудь знает как это сделать?

1

web-crawler nutch

Источник

user561629 06 фев '12 в 00:32

2 ответа

Решение

Удалить каталог сканирования и URL (если он был создан ранее)
Создайте и обновите начальный файл (где URL-адреса указаны 1URL на строку)
Перезапустите процесс сканирования

команда

nutch crawl urllist -dir crawl -depth 3 -topN 1000000

urllist - каталог, в котором находится начальный файл (список URL)
crawl - имя каталога

Даже если проблема не устранена, попробуйте удалить папку Nutch и перезапустить весь процесс.

2

Источник

user1140725 06 фев '12 в 05:52

Другие вопросы по тегам web-crawler nutch

user1150329 03 апр '12 в 15:54 2012-04-03 15:54 · Accepted Answer · 2012-04-03 15:54

Установите это свойство в nutch-site.xml, (по умолчанию это правда, поэтому он добавляет ссылки на crawldb)

<property>
  <name>db.update.additions.allowed</name>
  <value>false</value>
  <description>If true, updatedb will add newly discovered URLs, if false
  only already existing URLs in the CrawlDb will be updated and no new
  URLs will be added.
  </description>
</property>