Дамп данных из сканирования Nutch в несколько файлов warc
Я просканировал список сайтов, используя Nutch 1.12. Я могу выгрузить данные сканирования в отдельные файлы HTML, используя:
./bin/nutch dump -segment crawl/segments/ -o outputDir nameOfDir
И в один файл WARC с помощью:
./bin/nutch warc crawl/warcs crawl/segment/nameOfSegment
Но как я могу сбросить собранные данные в несколько файлов WARC, по одному на каждую просканированную веб-страницу?
2 ответа
Решение
После нескольких попыток мне удалось выяснить, что
./bin/nutch commoncrawldump -outputDir nameOfOutputDir -segment crawl/segments/segmentDir -warc
делает именно то, что мне нужно: полный дамп сегмента в отдельные файлы WARC!
Кажется немного расточительным иметь один WARC на документ, но здесь вы можете: вы можете указать низкое значение для "warc.output.segment.size", чтобы файлы вращались каждый раз при написании нового документа. WarcExporter использует [ https://github.com/ept/warc-hadoop] под капотом, там используется конфиг.