Каков принцип веб-сканирования программного обеспечения?
Как он может сканировать все доступные страницы автоматически?
Один из способов, который я могу придумать, - это сканировать его рекурсивно с домашней страницы.
Но он не сможет сканировать серверную часть CMS .
Так как же работают эти инструменты сканирования?
1 ответ
Глупый веб-сканер:
Начните с создания массива для хранения ссылок и размещения одного URL там самостоятельно. Создайте второй пустой массив для хранения посещенных URL. Теперь запустите программу, которая делает следующее.
- Прочитать и удалить первый элемент в массиве ссылок
- Скачать веб-страницу по этому URL
- Разобрать HTML для тегов ссылок, добавить все найденные ссылки в массив ссылок
- Добавьте URL веб-страницы в массив посещенных URL
- Перейти к 1
Если вы предполагаете, что каждая страница в Интернете доступна по некоторому количеству случайных ссылок (возможно, миллиардов), то простое повторение шагов с 1 по 4 в конечном итоге приведет к загрузке всей сети. Так как Интернет на самом деле не является полностью связным графом, вы должны начать процесс с разных точек, чтобы в конечном итоге добраться до каждой страницы.