Как сделать декодирование URL в Java?
В Java я хочу преобразовать это:
https%3A%2F%2Fmywebsite%2Fdocs%2Fenglish%2Fsite%2Fmybook.do%3Frequest_type
К этому:
https://mywebsite/docs/english/site/mybook.do&request_type
Это то, что я до сих пор:
class StringUTF
{
public static void main(String[] args)
{
try{
String url =
"https%3A%2F%2Fmywebsite%2Fdocs%2Fenglish%2Fsite%2Fmybook.do" +
"%3Frequest_type%3D%26type%3Dprivate";
System.out.println(url+"Hello World!------->" +
new String(url.getBytes("UTF-8"),"ASCII"));
}
catch(Exception E){
}
}
}
Но это не работает правильно. Что это %3A
а также %2F
форматы называются и как их конвертировать?
12 ответов
Это не имеет ничего общего с кодировками символов, такими как UTF-8 или ASCII. Строка, которая у вас есть, имеет закодированный URL. Этот вид кодирования является чем-то совершенно отличным от кодировки символов.
Попробуйте что-то вроде этого:
String result = java.net.URLDecoder.decode(url, "UTF-8");
Обратите внимание, что кодировка символов (например, UTF-8 или ASCII) - это то, что определяет отображение символов в необработанные байты. Для хорошего введения в кодировки символов, смотрите эту статью.
У вас есть строка application/x-www-form-urlencoded
кодирование.
Используйте URLDecoder для преобразования его в строку Java.
URLDecoder.decode( url, "UTF-8" );
На этот вопрос уже был дан ответ (хотя этот вопрос был первым!):
"Для этого вы должны использовать java.net.URI, так как класс URLDecoder выполняет декодирование x-www-form-urlencoded, что неверно (несмотря на название, это для данных формы)".
В принципе:
String url = "https%3A%2F%2Fmywebsite%2Fdocs%2Fenglish%2Fsite%2Fmybook.do%3Frequest_type";
System.out.println(new java.net.URI(url).getPath());
дам тебе:
https://mywebsite/docs/english/site/mybook.do?request_type
%3A
а также %2F
являются URL-кодированными символами. Используйте этот код Java, чтобы преобразовать их обратно в :
а также /
String decoded = java.net.URLDecoder.decode(url, "UTF-8");
Я использую Apache Commons
String decodedUrl = new URLCodec().decode(url);
Кодировка по умолчанию UTF-8
public String decodeString(String URL)
{
String urlString="";
try {
urlString = URLDecoder.decode(URL,"UTF-8");
} catch (UnsupportedEncodingException e) {
// TODO Auto-generated catch block
}
return urlString;
}
try {
String result = URLDecoder.decode(urlString, "UTF-8");
} catch (UnsupportedEncodingException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
import java.io.UnsupportedEncodingException;
import java.net.URISyntaxException;
public class URLDecoding {
String decoded = "";
public String decodeMethod(String url) throws UnsupportedEncodingException
{
decoded = java.net.URLDecoder.decode(url, "UTF-8");
return decoded;
//"You should use java.net.URI to do this, as the URLDecoder class does x-www-form-urlencoded decoding which is wrong (despite the name, it's for form data)."
}
public String getPathMethod(String url) throws URISyntaxException
{
decoded = new java.net.URI(url).getPath();
return decoded;
}
public static void main(String[] args) throws UnsupportedEncodingException, URISyntaxException
{
System.out.println(" Here is your Decoded url with decode method : "+ new URLDecoding().decodeMethod("https%3A%2F%2Fmywebsite%2Fdocs%2Fenglish%2Fsite%2Fmybook.do%3Frequest_type"));
System.out.println("Here is your Decoded url with getPath method : "+ new URLDecoding().getPathMethod("https%3A%2F%2Fmywebsite%2Fdocs%2Fenglish%2Fsite%2Fmybook.do%3Frequest"));
}
}
Вы можете выбрать свой метод с умом:)
Если это целочисленное значение, мы также должны перехватить NumberFormatException.
try {
Integer result = Integer.valueOf(URLDecoder.decode(urlNumber, "UTF-8"));
} catch (NumberFormatException | UnsupportedEncodingException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
Использование класса java.net.URI:
public String getDecodedURL(String encodedUrl) {
try {
URI uri = new URI(encodedUrl);
return uri.getScheme() + ":" + uri.getSchemeSpecificPart();
} catch (Exception e) {
return "";
}
}
Обратите внимание, что обработка исключений может быть лучше, но это не очень актуально для этого примера.
Просто используя URLDecoder.decode
один раз не будет достаточно.
Например:
Поскольку один и тот же URL-адрес может быть закодирован несколько раз, мы должны декодировать его до тех пор, пока URL-адрес не сможет быть декодирован дальше. Например, "video%252Fmp4" является результатом двух кодировок. После его декодирования мы получаем "video%2Fmp4". Теперь URL необходимо дополнительно декодировать, чтобы мы получили "video / mp4", что является результатом.
Вот код, который работает для всех таких случаев:
public static String decode(String url)
{
try {
String prevURL="";
String decodeURL=url;
while(!prevURL.equals(decodeURL))
{
prevURL=decodeURL;
decodeURL=URLDecoder.decode( decodeURL, "UTF-8" );
}
return decodeURL;
} catch (UnsupportedEncodingException e) {
return "Issue while decoding" +e.getMessage();
}
}
У меня тоже была эта проблема, и я пришел сюда в качестве ответа. Но я воспользовался кодом друга, чей вопрос одобрили, не сработало. Я пробовал что-то другое, и это сработало, поэтому я делюсь следующей строкой кода на случай, если это поможет.
URLDecoder.decode(URLDecoder.decode(url, StandardCharsets.UTF_8)))