Каков принцип веб-сканирования программного обеспечения?

Question

Каков принцип веб-сканирования программного обеспечения?

Как он может сканировать все доступные страницы автоматически?

Один из способов, который я могу придумать, - это сканировать его рекурсивно с домашней страницы.

Но он не сможет сканировать серверную часть CMS .

Так как же работают эти инструменты сканирования?

0

network-scan

Источник

user607707 08 фев '11 в 06:49

1 ответ

Решение

Другие вопросы по тегам network-scan

user280598 08 фев '11 в 06:58 2011-02-08 06:58 · Accepted Answer · 2011-02-08 06:58

Глупый веб-сканер:

Начните с создания массива для хранения ссылок и размещения одного URL там самостоятельно. Создайте второй пустой массив для хранения посещенных URL. Теперь запустите программу, которая делает следующее.

Прочитать и удалить первый элемент в массиве ссылок
Скачать веб-страницу по этому URL
Разобрать HTML для тегов ссылок, добавить все найденные ссылки в массив ссылок
Добавьте URL веб-страницы в массив посещенных URL
Перейти к 1

Если вы предполагаете, что каждая страница в Интернете доступна по некоторому количеству случайных ссылок (возможно, миллиардов), то простое повторение шагов с 1 по 4 в конечном итоге приведет к загрузке всей сети. Так как Интернет на самом деле не является полностью связным графом, вы должны начать процесс с разных точек, чтобы в конечном итоге добраться до каждой страницы.