Используется ли спецификация для 2-байтовых текстовых файлов Unicode?

Я знаю, что спецификация используется для файлов UTF-8, но как насчет текстовых файлов, где каждый символ состоит из 2 байтов, я должен также добавить к ним метку порядка байтов?

1 ответ

Решение

Спецификации были изобретены для UCS-2 и UTF-16, а затем только позже были присвоены Microsoft (а затем и XML) для UTF-8. Подумайте о названии: "знак порядка байтов". UTF-8 имеет только один возможный порядок байтов, поэтому ему не требуется спецификация для раскрытия порядка. Трехбайтовая последовательность для U+FEFF в UTF-8 вместо этого стала подписью Unicode для сниффинга типа файла.

Однако ранние версии поддержки XML в Java плохо реагировали на спецификацию UTF-8, несмотря на включение спецификации UTF-8 в стандарт XML. Кроме того, файл с спецификацией нельзя просто объединить с другим файлом, поскольку U+FEFF не является спецификацией в середине файла; это ZWNBSP.

Другие вопросы по тегам