Просматривайте веб-сайт с помощью wget и ограничивайте общее количество просканированных ссылок.

Question

Просматривайте веб-сайт с помощью wget и ограничивайте общее количество просканированных ссылок.

Я хочу больше узнать о сканерах, поиграв с инструментом wget. Я заинтересован в том, чтобы сканировать сайт моего отдела и найти первые 100 ссылок на этом сайте. Пока команда ниже - то, что я имею. Как ограничить сканер остановкой после 100 ссылок?

wget -r -o output.txt -l 0 -t 1 --spider -w 5 -A html -e robots=on "http://www.example.com"

3

bash scripting web-crawler wget

Источник

user155726 11 фев '11 в 19:25

2 ответа

Решение

Создайте файл fifo (mknod /tmp/httpipe p)
сделать вилку
- у ребенка сделать wget --spider -r -l 1 http://myurl --output-file /tmp/httppipe
- в отце: читать построчно /tmp/httpipe
- разобрать вывод =~ m{^\-\-\d\d:\d\d:\d\d\-\- http://$self->{http_server}:$self->{tcport}/(.*)$}, print $1
- считать линии; после 100 строк просто закройте файл, он сломает трубу

0

Источник

user6557255 06 июл '16 в 17:03

Другие вопросы по тегам bash scripting web-crawler wget

user54017 11 фев '11 в 22:28 2011-02-11 22:28 · Accepted Answer · 2011-02-11 22:28

Ты не можешь wget не поддерживает это, поэтому, если вы хотите что-то подобное, вам придется написать инструмент самостоятельно.

Вы можете получить основной файл, разобрать ссылки вручную и получить их одну за другой с ограничением в 100 элементов. Но это не то, что поддерживает wget.

Вы также можете взглянуть на HTTrack для сканирования веб-сайтов, у него есть несколько дополнительных возможностей для этого: http://www.httrack.com/