Каковы требования / второй стандарт для очистки веб-сайтов?

Это был самый близкий вопрос к моему вопросу, и на самом деле на него не очень хорошо ответил:

Сетевой этикет

Я ищу ответ на #1:

Сколько запросов / секунду вы должны сделать, чтобы очистить?

Щас вытащил из очереди ссылки. Каждый очищенный сайт имеет свою ветку и спит в течение 1 секунды между запросами. Я прошу сжатие GZIP для экономии пропускной способности.

Есть ли для этого стандарты? Конечно, у всех крупных поисковых систем есть некоторый набор рекомендаций, которым они следуют в отношении этого.

3 ответа

статья в Википедии о сканировании в Интернете содержит информацию о том, что делают другие:

Cho [22] использует 10 секунд в качестве интервала для доступа, а сканер WIRE [28] использует 15 секунд по умолчанию. Искатель MercatorWeb следует политике адаптивной вежливости: если загрузка документа с данного сервера заняла t секунд, сканер ждет 10t секунд, прежде чем загружать следующую страницу.[29] Dill et al. [30] использовать 1 секунду.

Я обычно пробую 5 секунд с небольшим количеством случайности, чтобы это выглядело менее подозрительно.

Для этого нет установленного стандарта, это зависит от того, какую нагрузку вызывает очистка веб-страниц. Пока вы заметно не влияете на скорость сайта для других пользователей, это должна быть приемлемая скорость очистки.

Поскольку количество пользователей и нагрузка на веб-сайт постоянно меняются, было бы неплохо динамически настроить скорость очистки.

Следите за задержкой загрузки каждой страницы, и если задержка начинает увеличиваться, начните снижать скорость очистки. По сути, загрузка / задержка веб-сайта должна быть обратно пропорциональна вашей скорости просмотра.

Когда мои клиенты / начальник просят меня сделать что-то подобное, я обычно ищу общедоступный API, прежде чем прибегнуть к очистке публичного сайта. Кроме того, обращение к владельцу сайта или техническому контакту с просьбой разрешить это сведет к минимуму количество писем "прекратить и отказаться".

Другие вопросы по тегам