Дамп данных из сканирования Nutch в несколько файлов warc

Я просканировал список сайтов, используя Nutch 1.12. Я могу выгрузить данные сканирования в отдельные файлы HTML, используя:

./bin/nutch dump -segment crawl/segments/ -o outputDir nameOfDir

И в один файл WARC с помощью:

./bin/nutch warc crawl/warcs crawl/segment/nameOfSegment

Но как я могу сбросить собранные данные в несколько файлов WARC, по одному на каждую просканированную веб-страницу?

2 ответа

Решение

После нескольких попыток мне удалось выяснить, что

./bin/nutch commoncrawldump -outputDir nameOfOutputDir -segment crawl/segments/segmentDir -warc

делает именно то, что мне нужно: полный дамп сегмента в отдельные файлы WARC!

Кажется немного расточительным иметь один WARC на документ, но здесь вы можете: вы можете указать низкое значение для "warc.output.segment.size", чтобы файлы вращались каждый раз при написании нового документа. WarcExporter использует [ https://github.com/ept/warc-hadoop] под капотом, там используется конфиг.

Другие вопросы по тегам