Heritrix 3.2.x, как читать контент из файлов warc?

Question

Heritrix 3.2.x, как читать контент из файлов warc?

Используя Heritrix 3.2.x, я просканировал веб-сайт. Теперь я хочу прочитать содержимое HTML из созданных файлов warc. Кто-нибудь может помочь? Я попытался использовать Python Warc Tool и основанный на Java Warc-tools.jar.

0

heritrix

Источник

user6760388 26 авг '16 в 07:42

3 ответа

Другие вопросы по тегам heritrix

user338756 26 авг '16 в 15:28 2016-08-26 15:28 · Answer 1 · 2016-08-26 15:28

Чтобы понять, из чего состоит файл warc, просто используйте текстовый редактор. Для графического просмотра вам понадобится такой инструмент, как webarchiveplayer, pywb или openwayback.

0

Источник

user338756 26 авг '16 в 15:28

user800413 05 янв '17 в 21:29 2017-01-05 21:29 · Answer 2 · 2017-01-05 21:29

Вы пробовали программировать читатель с помощью JWAT или использовать командную строку JWAT Tools.

jwattools.cmd extract path.to.warc(.gz)

0

Источник

user800413 05 янв '17 в 21:29

user3600553 06 май '23 в 03:18 2023-05-06 03:18 · Answer 3 · 2023-05-06 03:18

Используя ту же версиюHeritrixты используешь. Для воспроизведения используется .

The OpenWayBackв комплекте сCDX-Indexerкоторый можно использовать для извлечения содержимого, записанного вCDXфайл, в котором вы можете получитьHTMLссылки и т. д.

0

Источник

user3600553 06 май '23 в 03:18