Зеркальное отображение веб-сайтов - 403 Запрещено с помощью строк агента пользователя

Question

Зеркальное отображение веб-сайтов - 403 Запрещено с помощью строк агента пользователя

Я работаю над приложением для зеркалирования академических каталогов университетов США. Для этого у меня есть группа работников Celery, которые используют wget или httrack, чтобы отразить содержимое, стили и сценарии, а затем загрузить их в нашу корзину S3.

Для небольшого числа университетских сайтов я столкнулся с ошибкой 403 - Запрещено при использовании wget/httrack со строкой пользовательского агента Windows Chrome. Тем не менее, я могу загрузить веб-страницу в браузере.

Первоначально я думал, что пользовательский агент и реферер были проблемой здесь, поэтому я установил для них пользовательский агент Chrome 50 и google.com соответственно. Тем не менее, я все еще сталкиваюсь с проблемой. Однако, если я использую библиотеку запросов Python со всеми этими URL-адресами, я получу HTTP 200 ответов.

Я гарантировал, что куки используются, поэтому я в растерянности. Есть ли причина, почему requests будет работать, но wget / httrack не?

1

wget mirroring httrack

Источник

user214892 27 май '16 в 16:51

0 ответов

Другие вопросы по тегам wget mirroring httrack