Текст сценария телугу Ану

О скрипте на индийском языке, который теряет символы при копировании / вставке в браузеры

Мне нужно знать о типах символов и их преобразовании в различные поддерживаемые форматы. У меня вопрос - у меня есть текст, который набирается с помощью Anu Script Software с Apple Keyboard. Текст, который набирается с использованием Anu, также не может быть использован в качестве ввода в любом браузере или в веб-приложении WhatsApp.

Может кто-нибудь решить это

Текст скопированный и вставленный отображается следующим образом:- - 

И реальный текст такой, как показано на скриншоте ниже:

Это изображение показывает один язык Индии, набранный с использованием Anu Script Software

1 ответ

Коды символов, которые были скопированы и вставлены в вопрос, представляют собой кодовые точки Unicode в частной области использования (PUA) Unicode BMP (базовая многоязычная плоскость). Отличительные моменты:

  • U+F020,U+F026,U+F02B,U+F03C,U+F054,U+F058,U+F05C,U+F06A
  • U+F073,U+F075,U+F077,U+F079,U+F080,U+F083,U+F087,U+F088
  • U+F08A,U+F090,U+F091,U+F09F,U+F0B2,U+F0BC,U+F0BF,U+F0C2
  • U+F0D2,U+F0D4,U+F0E1,U+F0E6,U+F0E7,U+F0EC,U+F0FB

Если вы перейдете на страницу Unicode Charts и введете "F020" в качестве кода, это даст вам UE000.pdf для загрузки, который говорит:

Частная зона использования

Диапазон: E000-F8FF

Область частного использования не содержит каких-либо назначений символов, следовательно, для этой области не предоставляются таблицы кодов символов или списки имен.

Это означает, что программное обеспечение Anu Script использует точки Unicode, которые не имеют международного согласованного значения - BMP PUA по определению предназначен для "частного использования", и стороны, обменивающиеся данными с использованием PUA, должны договориться о том, что означают кодовые точки, и как их отображать. Они работают только с программным обеспечением, которое понимает соглашение. Вы не можете использовать эти кодовые точки, кроме как с программным обеспечением, которое понимает, что делает Anu Script Software.

Браузеры будут понимать эти кодовые точки только в том случае, если им известно, где находится соответствующий шрифт, который проникает в сложные детали и, вероятно, зависит от платформы. (Я понятия не имею, с чего начать!)

Стандартный диапазон Юникода для телугу - U + 0C00..U + 0C7F.

телугу

Диапазон: 0C00–0C7F

Лучше всего, вероятно, проанализировать сходства и различия между кодовыми точками, используемыми Anu Script Software, и стандартным диапазоном Unicode для телугу, а затем использовать стандартные коды Unicode. Возможно, вам нужно понять, как сочетать акценты и различные другие аспекты телугу.


Я вообще не знаю телугу, так что то, что следует, может быть неточным, но я думаю, что более или менее имеет смысл то, что в выводе Anu Script Software:

UTF-8 bytes      PUA        Telugu  Glyph
0xEF 0x82 0x87 = U+F087 ==> U+0C08  ఈ
0xEF 0x80 0xA0 = U+F020 ==> U+0020  space
0xEF 0x82 0x80 = U+F080 ==> U+0C06  ఆ
0xEF 0x81 0x9C = U+F05C ==> U+0C32  ల
0xEF 0x81 0xAA = U+F06A \
0xEF 0x83 0xA1 = U+F0E1 ==> U+0C2F  య  (three code points for one character)
0xEF 0x81 0x94 = U+F054 /
0xEF 0x80 0xAB = U+F02B ==> U+0C66  ౦
0xEF 0x80 0xA0 = U+F020 ==> U+0020  space
0xEF 0x83 0x82 = U+F0C2 
0xEF 0x81 0xB3 = U+F073
0xEF 0x80 0xAB = U+F02B
0xEF 0x80 0xA6 = U+F026
0xEF 0x82 0x83 = U+F083
0xEF 0x81 0x94 = U+F054
0xEF 0x80 0xA0 = U+F020 ==> U+0020  space
0xEF 0x80 0xBC = U+F03C
0xEF 0x82 0x8A = U+F08A
0xEF 0x81 0x98 = U+F058
0xEF 0x83 0xA6 = U+F0E6
0xEF 0x81 0xB5 = U+F075
0xEF 0x82 0xB2 = U+F0B2
0xEF 0x83 0x92 = U+F0D2
0xEF 0x81 0x9C = U+F05C
0xEF 0x80 0xA0 = U+F020 ==> U+0020  space
0xEF 0x83 0xA7 = U+F0E7 ==> U+0C46 U+0C66  ౦ె (Note 1)
0xEF 0x82 0xBF = U+F0BF
0xEF 0x83 0xAC = U+F0EC
0xEF 0x83 0x94 = U+F0D4
0xEF 0x83 0xA1 = U+F0E1
0xEF 0x80 0xAB = U+F02B
0xEF 0x80 0xA0 = U+F020 ==> U+0020  space
0xEF 0x81 0xB3 = U+F073
0xEF 0x82 0x90 = U+F090
0xEF 0x83 0xA7 = U+F0E7
0xEF 0x81 0xB7 = U+F077
0xEF 0x82 0x9F = U+F09F
0xEF 0x82 0xBC = U+F0BC
0xEF 0x80 0xA0 = U+F020 ==> U+0020  space
0xEF 0x80 0xBC = U+F03C
0xEF 0x83 0xBB = U+F0FB
0xEF 0x81 0xB9 = U+F079
0xEF 0x82 0x90 = U+F090
0xEF 0x80 0xBC = U+F03C
0xEF 0x82 0x91 = U+F091
0xEF 0x81 0xAA = U+F06A
0xEF 0x83 0xA1 = U+F0E1
0xEF 0x81 0x94 = U+F054
0xEF 0x80 0xA0 = U+F020 ==> U+0020  space
0xEF 0x80 0xBC = U+F03C
0xEF 0x82 0x8A = U+F08A
0xEF 0x81 0xB3 = U+F073
0xEF 0x82 0x90 = U+F090
0xEF 0x82 0x88 = U+F088
0xEF 0x80 0xBC = U+F03C
0xEF 0x82 0x91 = U+F091
0xEF 0x81 0xAA = U+F06A \
0xEF 0x83 0xA1 = U+F0E1 ==> U+0C2F  య
0xEF 0x81 0x94 = U+F054 /

Примечание 1: ГЛАВНЫЙ ЗНАК TELUGU E +0C46 должен сочетаться с TELUGU DIGIT ZERO U+0C66 - если я правильно определил символы, что кажется невероятным. Я перестану пытаться здесь; Я распознаю некоторые фигуры, сопоставляя то, что вы показываете на изображении, со страницей диаграммы Unicode, но я не уверен в соответствии с кодовыми точками PUA.

Вы должны быть в состоянии получить соответствующую информацию от людей, предоставивших Anu Script Software.

Другие вопросы по тегам