Как сделать декодирование URL в Java?

В Java я хочу преобразовать это:

https%3A%2F%2Fmywebsite%2Fdocs%2Fenglish%2Fsite%2Fmybook.do%3Frequest_type

К этому:

https://mywebsite/docs/english/site/mybook.do&request_type

Это то, что я до сих пор:

class StringUTF 
{
    public static void main(String[] args) 
    {
        try{
            String url = 
               "https%3A%2F%2Fmywebsite%2Fdocs%2Fenglish%2Fsite%2Fmybook.do" +
               "%3Frequest_type%3D%26type%3Dprivate";

            System.out.println(url+"Hello World!------->" +
                new String(url.getBytes("UTF-8"),"ASCII"));
        }
        catch(Exception E){
        }
    }
}

Но это не работает правильно. Что это %3A а также %2F форматы называются и как их конвертировать?

12 ответов

Решение

Это не имеет ничего общего с кодировками символов, такими как UTF-8 или ASCII. Строка, которая у вас есть, имеет закодированный URL. Этот вид кодирования является чем-то совершенно отличным от кодировки символов.

Попробуйте что-то вроде этого:

String result = java.net.URLDecoder.decode(url, "UTF-8");

Обратите внимание, что кодировка символов (например, UTF-8 или ASCII) - это то, что определяет отображение символов в необработанные байты. Для хорошего введения в кодировки символов, смотрите эту статью.

У вас есть строка application/x-www-form-urlencoded кодирование.

Используйте URLDecoder для преобразования его в строку Java.

URLDecoder.decode( url, "UTF-8" );

На этот вопрос уже был дан ответ (хотя этот вопрос был первым!):

"Для этого вы должны использовать java.net.URI, так как класс URLDecoder выполняет декодирование x-www-form-urlencoded, что неверно (несмотря на название, это для данных формы)".

В принципе:

String url = "https%3A%2F%2Fmywebsite%2Fdocs%2Fenglish%2Fsite%2Fmybook.do%3Frequest_type";
System.out.println(new java.net.URI(url).getPath());

дам тебе:

https://mywebsite/docs/english/site/mybook.do?request_type

%3A а также %2F являются URL-кодированными символами. Используйте этот код Java, чтобы преобразовать их обратно в : а также /

String decoded = java.net.URLDecoder.decode(url, "UTF-8");

Я использую Apache Commons

String decodedUrl = new URLCodec().decode(url);

Кодировка по умолчанию UTF-8

public String decodeString(String URL)
    {

    String urlString="";
    try {
        urlString = URLDecoder.decode(URL,"UTF-8");
        } catch (UnsupportedEncodingException e) {
            // TODO Auto-generated catch block

        }

        return urlString;

    }
 try {
        String result = URLDecoder.decode(urlString, "UTF-8");
    } catch (UnsupportedEncodingException e) {
        // TODO Auto-generated catch block
        e.printStackTrace();
    }
import java.io.UnsupportedEncodingException;
import java.net.URISyntaxException;

public class URLDecoding { 

    String decoded = "";

    public String decodeMethod(String url) throws UnsupportedEncodingException
    {
        decoded = java.net.URLDecoder.decode(url, "UTF-8"); 
        return  decoded;
//"You should use java.net.URI to do this, as the URLDecoder class does x-www-form-urlencoded decoding which is wrong (despite the name, it's for form data)."
    }

    public String getPathMethod(String url) throws URISyntaxException 
    {
        decoded = new java.net.URI(url).getPath();  
        return  decoded; 
    }

    public static void main(String[] args) throws UnsupportedEncodingException, URISyntaxException 
    {
        System.out.println(" Here is your Decoded url with decode method : "+ new URLDecoding().decodeMethod("https%3A%2F%2Fmywebsite%2Fdocs%2Fenglish%2Fsite%2Fmybook.do%3Frequest_type")); 
        System.out.println("Here is your Decoded url with getPath method : "+ new URLDecoding().getPathMethod("https%3A%2F%2Fmywebsite%2Fdocs%2Fenglish%2Fsite%2Fmybook.do%3Frequest")); 

    } 

}

Вы можете выбрать свой метод с умом:)

Если это целочисленное значение, мы также должны перехватить NumberFormatException.

      try {
        Integer result = Integer.valueOf(URLDecoder.decode(urlNumber, "UTF-8"));
    } catch (NumberFormatException | UnsupportedEncodingException e) {
        // TODO Auto-generated catch block
        e.printStackTrace();
    }

Использование класса java.net.URI:

public String getDecodedURL(String encodedUrl) {
    try {
        URI uri = new URI(encodedUrl);
        return uri.getScheme() + ":" + uri.getSchemeSpecificPart();
    } catch (Exception e) {
        return "";
    }
}

Обратите внимание, что обработка исключений может быть лучше, но это не очень актуально для этого примера.

Просто используя URLDecoder.decode один раз не будет достаточно.

Например:

Поскольку один и тот же URL-адрес может быть закодирован несколько раз, мы должны декодировать его до тех пор, пока URL-адрес не сможет быть декодирован дальше. Например, "video%252Fmp4" является результатом двух кодировок. После его декодирования мы получаем "video%2Fmp4". Теперь URL необходимо дополнительно декодировать, чтобы мы получили "video / mp4", что является результатом.

Вот код, который работает для всех таких случаев:

public static String decode(String url)  
      {  
                try {  
                     String prevURL="";  
                     String decodeURL=url;  
                     while(!prevURL.equals(decodeURL))  
                     {  
                          prevURL=decodeURL;  
                          decodeURL=URLDecoder.decode( decodeURL, "UTF-8" );  
                     }  
                     return decodeURL;  
                } catch (UnsupportedEncodingException e) {  
                     return "Issue while decoding" +e.getMessage();  
                }  
      }

У меня тоже была эта проблема, и я пришел сюда в качестве ответа. Но я воспользовался кодом друга, чей вопрос одобрили, не сработало. Я пробовал что-то другое, и это сработало, поэтому я делюсь следующей строкой кода на случай, если это поможет.

      URLDecoder.decode(URLDecoder.decode(url, StandardCharsets.UTF_8)))
Другие вопросы по тегам