Описание тега unicode

Unicode - это стандарт кодирования, представления и обработки текста с целью поддержки всех символов, необходимых для письменного текста, включая все системы письма, технические символы и пунктуацию.

Unicode

Unicode назначает каждому символу кодовую точку, которая действует как уникальная ссылка:

  • U +0041 A
  • U +0042 B
  • U +0043 C
  • ...
  • U +039B Λ
  • U +039C Μ

Форматы преобразования Unicode

UTF описывают, как кодировать кодовые точки как байтовые представления. Наиболее распространенными формами являются UTF-8 (который кодирует кодовые точки как последовательность из одного, двух, трех или четырех байтов) и UTF-16 (который кодирует кодовые точки как два или четыре байта).

Code Point          UTF-8           UTF-16 (big-endian)
U+0041              41              00 41
U+0042              42              00 42
U+0043              43              00 43
...
U+039B              CE 9B           03 9B
U+039C              CE 9C           03 9C

Спецификация

Консорциум Unicode также определяет стандарты для алгоритмов сортировки, правил использования заглавных букв, нормализации символов и других операций с символами, зависящих от языкового стандарта.

Определение персонажей

Для получения дополнительной информации см. Статью о Unicode в Википедии.