Зеркальное отображение одной страницы с помощью httrack
Я пытаюсь использовать httrack ( http://www.httrack.com/) для загрузки одной страницы, а не всего сайта. Так, например, при использовании httrack для загрузки www.google.com он должен загружать только html, найденный на www.google.com, вместе со всеми таблицами стилей, изображениями и JavaScript, а не переходить по ссылкам на images.google.com, labs.google.com или www.google.com/subdir/ и т. д.
Я попробовал -w
вариант, но это не имеет никакого значения.
Какой будет правильная команда?
РЕДАКТИРОВАТЬ
Я пытался с помощью httrack "http://www.google.com/" -O "./www.google.com" "http://www.google.com/" -v -s0 --depth=1
но тогда это не будет копировать любые изображения.
В основном я хочу просто загрузить индексный файл этого домена вместе со всеми ресурсами, но не содержимое каких-либо внешних или внутренних ссылок.
5 ответов
Не могли бы вы использовать wget вместо httrack? wget -p
загрузит одну страницу и все ее "предпосылки" (изображения, таблицы стилей).
- Нажмите на "Установить параметры"
- Перейти на вкладку "Лимиты"
- Установите "Максимальная внешняя глубина" на 0
httrack "http://www.google.com/" -O "./www.google.com" "http://www.google.com/" -v -s0 --depth=1 -n
Опция -n (или --near) загружает изображения на веб-страницу, где бы она ни находилась.
Скажем, изображения находятся в google.com/foo/bar/logo.png. так как вы используете s0(оставайтесь в том же каталоге), оно не загрузит изображение, если вы не укажете --near
Глядя на пример:
httrack "http://www.all.net/" -O "/tmp/www.all.net" "+*.all.net/*" -v
Последняя часть является регулярным выражением. Просто сделайте полностью соответствующее регулярное выражение.
httrack "http://www.google.com.au/" -O "/tmp/www.google.com.au" "+*.google.com.au/*" -v ---depth=2 --ext-depth=2
Пришлось локализовать, иначе я получу страницу перенаправления. Вы должны локализоваться на любой Google, на который вас направят.
Цель HTTTrack - переходить по ссылкам. Попробуйте установить --ext-depth=0
,