Получение закодированного ответа на запрос HttpsURLConnection GET

Я работаю над приложением для Android, которое подключается к веб-странице с помощью класса Java HttpsURLConnection и анализирует HTML-ответ с помощью JSoup. Проблема в том, что ответ HTML с веб-сайта выглядит закодированным. Любые идеи о том, что я могу сделать, чтобы получить фактический HTML?

Вот мой код для связи с сайтом:

private String GetPageContent(String url) throws Exception {

        URL obj = new URL(url);
        conn = (HttpsURLConnection) obj.openConnection();

        // default is GET
        conn.setRequestMethod("GET");

        conn.setUseCaches(false);

        // act like a browser
        conn.setRequestProperty("User-Agent", USER_AGENT);
        conn.setRequestProperty("Accept",
                "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8");
        conn.setRequestProperty("Accept-Language", "en-US,en;q=0.8,en-GB;q=0.6");
        conn.setRequestProperty("Accept-Encoding" , "gzip, deflate, sdch");
        conn.setRequestProperty("Connection" , "keep-alive");

        if (cookies != null) {
            for (String cookie : this.cookies) {
                conn.addRequestProperty("Cookie", cookie.split(";", 1)[0]);
            }
        }
        int responseCode = conn.getResponseCode();
        Log.v(TAG,"\nSending 'GET' request to URL : " + url);
        Log.v(TAG,"Response Code : " + responseCode);

        BufferedReader in = new BufferedReader(new InputStreamReader(
                conn.getInputStream()));
        String inputLine;
        StringBuffer response = new StringBuffer();

        while ((inputLine = in.readLine()) != null) {
            response.append(inputLine);
        }
        in.close();

        // Get the response cookies
        setCookies(conn.getHeaderFields().get("Set-Cookie"));

        return response.toString();

    }

И фрагмент ответа:

��������������]�r�6��۞�w@ՙ�NDQ�ﱥ|�siv�Kkw�m&�HH�M,  Z��ff_c_o�d�@���9�l�6����� �_=w|����/A{��!W� LZ��������f]�=wc߽�2,˨�|�8x��~�}�x1�$Ib�Uq�7�j�X|;��K

РЕДАКТИРОВАТЬ: HTML был закодирован с помощью GZIP, как показано в заголовках запросов здесь.

Решением этой проблемы было использование класса GZIPInputStream, как показано ниже:

BufferedReader in = new BufferedReader(new InputStreamReader(
                new GZIPInputStream(conn.getInputStream())));

2 ответа

Решение

Основываясь на заголовках, возвращенных с запросом, мы можем сделать вывод, что контент кодируется с использованием gzip. К счастью, существует простой способ декодирования потока кодирования gzip с использованием класса GZIPInputStream.

Не знаете, к какому URL вы пытаетесь получить доступ, но пытались ли вы установить кодировку?

BufferedReader in = new BufferedReader(new InputStreamReader(
            conn.getInputStream(), "UTF8"));
Другие вопросы по тегам