Зеркальное отображение веб-сайтов - 403 Запрещено с помощью строк агента пользователя
Я работаю над приложением для зеркалирования академических каталогов университетов США. Для этого у меня есть группа работников Celery, которые используют wget
или httrack, чтобы отразить содержимое, стили и сценарии, а затем загрузить их в нашу корзину S3.
Для небольшого числа университетских сайтов я столкнулся с ошибкой 403 - Запрещено при использовании wget/httrack со строкой пользовательского агента Windows Chrome. Тем не менее, я могу загрузить веб-страницу в браузере.
Первоначально я думал, что пользовательский агент и реферер были проблемой здесь, поэтому я установил для них пользовательский агент Chrome 50 и google.com соответственно. Тем не менее, я все еще сталкиваюсь с проблемой. Однако, если я использую библиотеку запросов Python со всеми этими URL-адресами, я получу HTTP 200 ответов.
Я гарантировал, что куки используются, поэтому я в растерянности. Есть ли причина, почему requests
будет работать, но wget
/ httrack
не?