Heritrix 3.2.x, как читать контент из файлов warc?
Используя Heritrix 3.2.x, я просканировал веб-сайт. Теперь я хочу прочитать содержимое HTML из созданных файлов warc. Кто-нибудь может помочь? Я попытался использовать Python Warc Tool и основанный на Java Warc-tools.jar.
3 ответа
Чтобы понять, из чего состоит файл warc, просто используйте текстовый редактор. Для графического просмотра вам понадобится такой инструмент, как webarchiveplayer, pywb или openwayback.
Вы пробовали программировать читатель с помощью JWAT или использовать командную строку JWAT Tools.
jwattools.cmd extract path.to.warc(.gz)
Используя ту же версиюHeritrix
ты используешь. Для воспроизведения используется .
The OpenWayBack
в комплекте сCDX-Indexer
который можно использовать для извлечения содержимого, записанного вCDX
файл, в котором вы можете получитьHTML
ссылки и т. д.