Почему нормализация NFKC теряет информацию о верхнем и нижнем индексах?
Я заметил, что при нормализации строки Unicode к форме NFKC символы верхнего индекса, такие как ¹
(U + 00B9), ²
(U + 00B2), ³
(U + 00B3) и т. Д. Преобразуются в соответствующую цифру ASCII (например, 1
, 2
, 3
, так далее).
Кто-нибудь знает обоснование такого поведения? Похоже, что он теряет информацию в процессе. Например, верхний индекс обычно имеет некоторое контекстное значение.