UTF-8 - это кодировка символов, которая описывает каждую кодовую точку Unicode с помощью байтовой последовательности от одного до четырех байтов. Он обратно совместим с ASCII, но при этом поддерживает представление всех кодовых точек Unicode.

UTF-8 - это кодировка символов, которая может описывать набор кодовых точек Unicode в байтовых последовательностях от одного до четырех байтов.

UTF-8 является наиболее широко используемой кодировкой символов и рекомендуется для использования в Интернете. Это стандартная кодировка символов в Linux и других недавних unix- подобных операционных системах. Он был разработан для обеспечения обратной совместимости с ascii, при этом поддерживая представление всех кодовых точек Unicode.

Алгоритм кодирования кодовых точек в UTF-8 описан в RFC 3629.

Связанные теги

  • Кодировки символов Тег обсуждает общую концепцию символьного набора кодировок
  • Набор символов Юникода может быть представлен в различных кодировках, одна из которых - UTF-8.
  • Набор символов ascii и его кодировка обобщают
  • Другие UTF: utf-16 utf-32, редко используется: utf-7 utf-1 utf-18 utf-36 utf8mb4