Как загрузить все файлы (кроме HTML) с веб-сайта с помощью wget?

Question

Как загрузить все файлы (кроме HTML) с веб-сайта с помощью wget?

Как пользоваться wget и получить все файлы с сайта?

Мне нужны все файлы, кроме файлов веб-страниц, таких как HTML, PHP, ASP и т. Д.

178

ubuntu download wget

Источник

user1027702 06 янв '12 в 08:32

10 ответов

Решение

Это загрузило весь сайт для меня:

wget --no-clobber --convert-links --random-wait -r -p -E -e robots=off -U mozilla http://site/path/

91

Источник

user221781 19 ноя '13 в 05:27

wget -m -p -E -k -K -np http://site/path/

Страница man расскажет вам, что делают эти опции.

wget будет следовать только по ссылкам, если на странице индекса нет ссылки на файл, wget не будет знать о его существовании, а значит и не скачивать его. то есть. помогает, если все файлы связаны с веб-страницами или в каталогах.

64

Источник

user255061 06 янв '12 в 08:43

Я пытался скачать zip-файлы, связанные со страницы тем Omeka - довольно похожая задача. Это сработало для меня:

wget -A zip -r -l 1 -nd http://omeka.org/add-ons/themes/

-A: принимать только zip-файлы
-r: recurse
-l 1: один уровень глубоко (т.е. только файлы, напрямую связанные с этой страницей)
-nd: не создавайте структуру каталогов, просто загрузите все файлы в этот каталог.

Все ответы с -k, -K, -E Опции etc, возможно, не совсем поняли вопрос, например, переписать HTML-страницы для создания локальной структуры, переименовать .php файлы и тд. Не имеет значения.

Буквально получить все файлы, кроме .html так далее:

wget -R html,htm,php,asp,jsp,js,py,css -r -l 1 -nd http://yoursite.com

28

Источник

user263268 21 май '14 в 06:20

Я знаю, что эта тема очень старая, но я попал сюда в 2021 году в поисках способа загрузить все файлы Slackware с зеркала (http://ftp.slackware-brasil.com.br/slackware64-current/).

Прочитав все ответы, лучшим вариантом для меня был:

      wget -m -p -k -np -R '*html*,*htm*,*asp*,*php*,*css*' -X 'www' http://ftp.slackware-brasil.com.br/slackware64-current/

Мне пришлось использовать *html* вместо просто html чтобы избежать скачиваний вроде index.html.tmp.

Пожалуйста, простите меня за возрождение этой темы, я подумал, что она может быть полезна кому-то другому, кроме меня, и мои сомнения очень похожи на вопрос @ Aniruddhsinh.

9

Источник

user13653945 17 май '21 в 17:45

Вы можете попробовать:

wget --user-agent=Mozilla --content-disposition --mirror --convert-links -E -K -p http://example.com/

Также вы можете добавить:

-A pdf,ps,djvu,tex,doc,docx,xls,xlsx,gz,ppt,mp4,avi,zip,rar

принять определенные расширения или отклонить только определенные расширения:

-R html,htm,asp,php

или исключить конкретные области:

-X "search*,forum*"

Если файлы игнорируются для роботов (например, поисковых систем), вы также должны добавить: -e robots=off

7

Источник

user55075 10 дек '13 в 12:40

wget -m -A * -pk -e robots=off www.mysite.com/

это загрузит все типы файлов локально и укажет на них из файла html, и это будет игнорировать файл роботов

5

Источник

user1641233 20 дек '14 в 09:13

Попробуй это. У меня всегда работает

wget --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL

5

Источник

user2301402 23 сен '14 в 02:53

В системах Windows, чтобы получить wget, вы можете

скачать Cygwin
скачать GnuWin32

3

Источник

user3206429 26 янв '14 в 02:00

Это работает для меня:

wget -r -np http://yoursite.com/path/

0

Источник

user8029081 22 июн '18 в 12:05

Другие вопросы по тегам ubuntu download wget

user11621 06 янв '12 в 09:58 2012-01-06 09:58 · Accepted Answer · 2012-01-06 09:58

Чтобы отфильтровать по определенным расширениям файлов:

wget -A pdf,jpg -m -p -E -k -K -np http://site/path/

Или, если вы предпочитаете длинные имена вариантов:

wget --accept pdf,jpg --mirror --page-requisites --adjust-extension --convert-links --backup-converted --no-parent http://site/path/

Это будет зеркало сайта, но файлы без jpg или же pdf расширение будет автоматически удалено.