Как получить глик Unicode представление Unicode символа
В Windows используется библиотека unscribe для замены символов арабского и индийского алфавита в зависимости от их местоположения. Новый глиф все еще имеет исходный юникод типизированного символа, хотя у него есть свое специальное представление в Юникоде. Как получить Юникод того, что на самом деле отображается, а не того, что напечатано.
2 ответа
Для этого есть множество инструментов, таких как ICU, Charmap и другие. Я сам рекомендую http://unicode.codeplex.com/, он использует базу данных символов Unicode для представления символов.
Обратите внимание, что юникод - это просто некоторая информация о символах и никогда не говорила о представлении. Они просто предлагают реализовать слово так же, как их пример. так что для просмотра каждого кода вам нужно Standard Unicode Font
как MS Arial Unicode, который является самым большим и лучшим выбором для платформы Windows.
Большинство символов реализовано в этом шрифте, но для новых символов вам нужно его обновить (если есть такое обновление), или вы можете использовать шрифт, который, как вы знаете, реализовал ваши символы желания
Ваша интерпретация того, что происходит в Uniscribe, неверна. Если у вас есть глифы, исходная информация исчезла, надежного способа вернуться к Юникоду нет.
Даже не переходя на арабский язык, невозможно отличить, если глиф для лигатуры (например) происходит от "f" и "i" (U+0066 U+0069) или от "fi" (U+FB01), ( http://www.fileformat.info/info/unicode/char/fb01/index.htm)
Кроме того, некоторые из полученных символов не имеют значения Unicode, связанного с ними, поэтому нет "Unicode того, что на самом деле отображается"