Почему нормализация NFKC теряет информацию о верхнем и нижнем индексах?

Я заметил, что при нормализации строки Unicode к форме NFKC символы верхнего индекса, такие как ¹ (U + 00B9), ² (U + 00B2), ³ (U + 00B3) и т. Д. Преобразуются в соответствующую цифру ASCII (например, 1, 2, 3, так далее).

Кто-нибудь знает обоснование такого поведения? Похоже, что он теряет информацию в процессе. Например, верхний индекс обычно имеет некоторое контекстное значение.

0 ответов

Другие вопросы по тегам