Heritrix 3.2.x, как читать контент из файлов warc?

Используя Heritrix 3.2.x, я просканировал веб-сайт. Теперь я хочу прочитать содержимое HTML из созданных файлов warc. Кто-нибудь может помочь? Я попытался использовать Python Warc Tool и основанный на Java Warc-tools.jar.

3 ответа

Чтобы понять, из чего состоит файл warc, просто используйте текстовый редактор. Для графического просмотра вам понадобится такой инструмент, как webarchiveplayer, pywb или openwayback.

Вы пробовали программировать читатель с помощью JWAT или использовать командную строку JWAT Tools.

jwattools.cmd extract path.to.warc(.gz)

Используя ту же версиюHeritrixты используешь. Для воспроизведения используется .

The OpenWayBackв комплекте сCDX-Indexerкоторый можно использовать для извлечения содержимого, записанного вCDXфайл, в котором вы можете получитьHTMLссылки и т. д.

Другие вопросы по тегам