Каковы требования / второй стандарт для очистки веб-сайтов?
Это был самый близкий вопрос к моему вопросу, и на самом деле на него не очень хорошо ответил:
Я ищу ответ на #1:
Сколько запросов / секунду вы должны сделать, чтобы очистить?
Щас вытащил из очереди ссылки. Каждый очищенный сайт имеет свою ветку и спит в течение 1 секунды между запросами. Я прошу сжатие GZIP для экономии пропускной способности.
Есть ли для этого стандарты? Конечно, у всех крупных поисковых систем есть некоторый набор рекомендаций, которым они следуют в отношении этого.
3 ответа
статья в Википедии о сканировании в Интернете содержит информацию о том, что делают другие:
Cho [22] использует 10 секунд в качестве интервала для доступа, а сканер WIRE [28] использует 15 секунд по умолчанию. Искатель MercatorWeb следует политике адаптивной вежливости: если загрузка документа с данного сервера заняла t секунд, сканер ждет 10t секунд, прежде чем загружать следующую страницу.[29] Dill et al. [30] использовать 1 секунду.
Я обычно пробую 5 секунд с небольшим количеством случайности, чтобы это выглядело менее подозрительно.
Для этого нет установленного стандарта, это зависит от того, какую нагрузку вызывает очистка веб-страниц. Пока вы заметно не влияете на скорость сайта для других пользователей, это должна быть приемлемая скорость очистки.
Поскольку количество пользователей и нагрузка на веб-сайт постоянно меняются, было бы неплохо динамически настроить скорость очистки.
Следите за задержкой загрузки каждой страницы, и если задержка начинает увеличиваться, начните снижать скорость очистки. По сути, загрузка / задержка веб-сайта должна быть обратно пропорциональна вашей скорости просмотра.
Когда мои клиенты / начальник просят меня сделать что-то подобное, я обычно ищу общедоступный API, прежде чем прибегнуть к очистке публичного сайта. Кроме того, обращение к владельцу сайта или техническому контакту с просьбой разрешить это сведет к минимуму количество писем "прекратить и отказаться".