не могу найти правильное сжатие для этой веб-страницы (python requests.get)

Question

не могу найти правильное сжатие для этой веб-страницы (python requests.get)

Я могу загрузить эту веб-страницу в Google Chrome, но не могу получить к ней доступ через requests. Есть идеи, в чем проблема сжатия?

Код:

      import requests


url = r'https://www.huffpost.com/entry/sean-hannity-gutless-tucker-carlson_n_60d5806ae4b0b6b5a164633a'
headers = {'Accept-Encoding':'gzip, deflate, compress, br, identity'}

r = requests.get(url, headers=headers)

Результат:

      ContentDecodingError: ('Received response with content-encoding: gzip, but failed to decode it.', error('Error -3 while decompressing data: incorrect header check'))

1

python python-requests html-compression

Источник

27 июн '21 в 19:54

2 ответа

Другие вопросы по тегам python python-requests html-compression

user11380795 27 июн '21 в 20:51 2021-06-27 20:51 · Answer 1 · 2021-06-27 20:51

Используйте пользовательский агент, эмулирующий браузер:

      import requests

url = r'https://www.huffpost.com/entry/sean-hannity-gutless-tucker-carlson_n_60d5806ae4b0b6b5a164633a'
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36"}

r = requests.get(url, headers=headers)

1

Источник

user11380795 27 июн '21 в 20:51

user493161 27 июн '21 в 21:34 2021-06-27 21:34 · Answer 2 · 2021-06-27 21:34

Вы получаете 403 Forbidden ошибка, которую вы можете увидеть, используя requests.head. Используйте предложение RJ Adriaansen , чтобы победить блокировку роботов huffpost.

      >>> requests.head(url)
<Response [403]>

0

Источник

user493161 27 июн '21 в 21:34