Каков принцип веб-сканирования программного обеспечения?

Как он может сканировать все доступные страницы автоматически?

Один из способов, который я могу придумать, - это сканировать его рекурсивно с домашней страницы.

Но он не сможет сканировать серверную часть CMS .

Так как же работают эти инструменты сканирования?

1 ответ

Решение

Глупый веб-сканер:

Начните с создания массива для хранения ссылок и размещения одного URL там самостоятельно. Создайте второй пустой массив для хранения посещенных URL. Теперь запустите программу, которая делает следующее.

  1. Прочитать и удалить первый элемент в массиве ссылок
  2. Скачать веб-страницу по этому URL
  3. Разобрать HTML для тегов ссылок, добавить все найденные ссылки в массив ссылок
  4. Добавьте URL веб-страницы в массив посещенных URL
  5. Перейти к 1

Если вы предполагаете, что каждая страница в Интернете доступна по некоторому количеству случайных ссылок (возможно, миллиардов), то простое повторение шагов с 1 по 4 в конечном итоге приведет к загрузке всей сети. Так как Интернет на самом деле не является полностью связным графом, вы должны начать процесс с разных точек, чтобы в конечном итоге добраться до каждой страницы.

Другие вопросы по тегам