Использование Nutch для сканирования указанного списка URL
У меня есть один миллион URL-адресов для получения. Я использую этот список как семена орехов и использую базовую команду сканирования Nutch для их извлечения. Тем не менее, я считаю, что Nutch автоматически выбирает URL, которых нет в списке. Я устанавливаю параметры сканирования как -depth 1 -topN 1000000. Но это не работает. Кто-нибудь знает как это сделать?
2 ответа
Решение
Установите это свойство в nutch-site.xml
, (по умолчанию это правда, поэтому он добавляет ссылки на crawldb)
<property>
<name>db.update.additions.allowed</name>
<value>false</value>
<description>If true, updatedb will add newly discovered URLs, if false
only already existing URLs in the CrawlDb will be updated and no new
URLs will be added.
</description>
</property>
- Удалить каталог сканирования и URL (если он был создан ранее)
- Создайте и обновите начальный файл (где URL-адреса указаны 1URL на строку)
- Перезапустите процесс сканирования
команда
nutch crawl urllist -dir crawl -depth 3 -topN 1000000
- urllist - каталог, в котором находится начальный файл (список URL)
- crawl - имя каталога
Даже если проблема не устранена, попробуйте удалить папку Nutch и перезапустить весь процесс.