Описание тега web-crawler
Web гусеничный представляет собой компьютерную программу, которая просматривает World Wide Web в методической, автоматическом режиме или в упорядоченно.
Другие термины для поисковых роботов - это муравьи, автоматические индексаторы, боты, веб-пауки, веб-роботы или - особенно в сообществе FOAF - веб-скаттеры.
Этот процесс называется сканированием Интернета или поиском пауков. Многие сайты, в частности поисковые системы, используют поисковую систему как средство предоставления актуальных данных. Веб-сканеры в основном используются для создания копий всех посещенных страниц для последующей обработки поисковой системой, которая будет индексировать загруженные страницы для обеспечения быстрого поиска. Сканеры также можно использовать для автоматизации задач обслуживания на веб-сайте, таких как проверка ссылок или проверка HTML-кода. Кроме того, сканеры могут использоваться для сбора определенных типов информации с веб-страниц, например для сбора адресов электронной почты (обычно для рассылки спама).
Поисковый робот - это один из типов ботов или программных агентов. Как правило, он начинается со списка URL-адресов для посещения, называемого семенами. Когда сканер посещает эти URL-адреса, он определяет все гиперссылки на странице и добавляет их в список URL-адресов для посещения, называемый границей сканирования. URL-адреса из границы рекурсивно посещаются в соответствии с набором политик.
Большой объем означает, что поисковый робот может загрузить только ограниченное количество веб-страниц в течение определенного времени, поэтому ему необходимо установить приоритеты для своих загрузок. Высокая скорость изменений означает, что страницы могли быть уже обновлены или даже удалены.
Количество возможных URL-адресов для сканирования, генерируемых серверным программным обеспечением, также затрудняет поисковым роботам веб-поисковик дублированного контента. Существуют бесконечные комбинации параметров HTTP GET (на основе URL), из которых только небольшая часть фактически вернет уникальный контент. Например, простая онлайн-фотогалерея может предлагать пользователям три варианта, указанные в параметрах HTTP GET в URL-адресе. Если существует четыре способа сортировки изображений, три варианта размера миниатюр, два формата файлов и возможность отключения пользовательского контента, то к одному и тому же набору контента можно получить доступ с помощью 48 различных URL-адресов, на все из которых можно ссылаться сайт. Эта математическая комбинация создает проблему для поисковых роботов, поскольку они должны сортировать бесконечные комбинации относительно незначительных изменений сценария, чтобы получить уникальный контент.
Индексы веб-сканеров
Дополнительная информация