Java конвертировать кодировку

Question

Java конвертировать кодировку

У меня есть строка, которая раньше была тегом xml, где содержатся mojibakes:
<Applicant_Place_Born>ÐÐ¾ÑÐºÐ²Ð°</Applicant_Place_Born>

Я знаю, что точно такая же строка, но в правильной кодировке:
<Applicant_Place_Born>Москва</Applicant_Place_Born>

Я знаю это, потому что с помощью утилиты Tcl я могу преобразовать ее в правильную строку:

# The original string
set s "Ð&#156;Ð¾Ñ&#129;ÐºÐ²Ð°"
# substituting the html escapes
set t "Ð\x9cÐ¾Ñ\x81ÐºÐ²Ð°"
# decode from utf-8 into Unicode
encoding convertfrom utf-8 "Ð\x9cÐ¾Ñ\x81ÐºÐ²Ð°"
Москва

Я пробовал разные варианты этого:

System.out.println(new String(original.getBytes("UTF-8"), "CP1251"));

но у меня всегда были другие моджибейки или знаки вопроса вместо персонажей.

В: Как я могу сделать то же самое, что и Tcl, но с использованием кода Java?

РЕДАКТИРОВАТЬ:

Я попробовал подход @Joop Eggen:

import org.apache.commons.lang3.StringEscapeUtils;


public class s {
    static String s;
    public static void main(String[] args) {
        try {
            System.setProperty("file.encoding", "CP1251");
            System.out.println("JVM encoding: " + System.getProperty("file.encoding"));
            s = "Ð&#156;Ð¾Ñ&#129;ÐºÐ²Ð°";
            System.out.println("Original text: " + s);

            s = StringEscapeUtils.unescapeHtml4(s);
            byte[] b = s.getBytes(StandardCharsets.ISO_8859_1);
            s = new String(b, "UTF-16BE");

            System.out.println("Result: " + s);

        } catch (Exception e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }

    }
}

Конвертированная строка была чем-то китайским:

JVM encoding: CP1251 Original text: ÐÐ¾ÑÐºÐ²Ð° Result: 킜킾톁킺킲킰

1

java encoding mojibake

Источник

user3787877 02 июл '15 в 13:34

2 ответа

Решение

Вы были довольно близко Тем не мение, getBytes используется для кодирования UTF-8, а не для декодирования. То, что вы хотите, это что-то вроде

String string = "Ð\x9cÐ¾Ñ\x81ÐºÐ²Ð°";
byte[] bytes = string.getBytes("UTF-8");
System.out.println(new String(bytes, "UTF-8"));

1

Источник

user3806046 02 июл '15 в 13:55

Другие вопросы по тегам java encoding mojibake

user984823 02 июл '15 в 13:55 2015-07-02 13:55 · Accepted Answer · 2015-07-02 13:55

Строка в Java всегда должна быть правильной Unicode. В вашем случае вам кажется, что UTF16BE интерпретируется как некоторая однобайтовая кодировка.

Патч будет

String string = new StringEscapeUtils().UnescapeHTML4(s);
byte[] b = string.getBytes(StandardCharsets.ISO_8859_1);
string = new String(b, "UTF-16BE");

Сейчас s должна быть правильная строка Unicode.

System.out.println(s);

Например, если операционная система находится в Cp1251, кириллический текст должен быть преобразован правильно.

Символы в s на самом деле являются байтами UTF-16BE.
Получая байты строки в однобайтовой кодировке, мы надеемся, что преобразование не происходит
Затем создайте строку байтов, как в UTF-16BE, внутренне преобразованную в Unicode (на самом деле тоже UTF-16BE)