Полный список всех подписок и диакритических знаков в юникоде

Ответ: http://www.unicode.org/Public/UNIDATA/UnicodeData.txt представляет собой список всех символов Юникода, а 0xcc99 # U+0319 КОМБИНИРОВАНИЕ ПРАВОЙ НАКЛАДКИ НИЖЕ напоминает запятую для моноширинного шрифта..(пример: 10̡9̡8̡7̡6̡5̡4̡3̡2̡1̡0̡)

Есть ли полный список всех символов Юникода вместе с их словесными описаниями, например, список строк, таких как... 0xcc99 # U+0319 КОМБИНИРОВАНИЕ ПРАВЫЙ TACK НИЖЕ..

В частности, какой диакритический знак я использую для ввода 1. или 2o3? Мотивация заключается в том, что я хочу иметь возможность добавлять точку или запятую в моноширинном шрифте в терминале без фактического добавления символа.

3 ответа

Решение

Там нет полного списка всех символов Unicode вместе с их словесными описаниями, даже нет списка их с именами Unicode. Файлы UnicodeData.txt в общем относятся к большому диапазону символов, например

4E00;<CJK Ideograph, First>;Lo;0;L;;;;;N;;;;;
9FCB;<CJK Ideograph, Last>;Lo;0;L;;;;;N;;;;;

а также

AC00;<Hangul Syllable, First>;Lo;0;L;;;;;N;;;;;
D7A3;<Hangul Syllable, Last>;Lo;0;L;;;;;N;;;;;

Можно было бы построить полный список с именами Unicode, но какова будет цель? Имена Unicode, такие как COMBINING PALATALIZED HOOK НИЖЕ, являются идентификаторами, а не описаниями. Взятые как английские тексты, некоторые из них интуитивно понятны, некоторые очень расплывчаты, некоторые неясны, а некоторые совершенно неверны - и никогда не будут изменены из-за принципа стабильности. Принцип во многом обусловлен использованием имен Unicode в программах; их нельзя менять по тем же причинам, по которым номера Unicode нельзя менять.

Некоторые из названий Unicode для диакритических знаков также вводят в заблуждение или по крайней мере неполны. Форма диакритического знака не может быть выведена из одного только имени Unicode, и форма может даже сильно отличаться (например, t с caron - ť в нижнем регистре, с диакритическим символом, похожим на конну, тогда как соответствующая заглавная буква Ť имеет.. хорошо, как у Caron, как у Caron).

Использование символов, таких как U+0319 и U+0321, в ваших текстовых данных подразумевает, что потребуется относительно обширный шрифт и относительно продвинутое программное обеспечение для рендеринга, которое хорошо отображает сочетание диакритических знаков. Более того, если вы намереваетесь использовать их в значениях и контекстах, для которых они не предназначены (они предназначены для использования в фонетических обозначениях, где они связаны с буквами для обозначения особенностей произношения), вам может потребоваться плохое программное обеспечение, которое реализует их ненадлежащим образом (учитывая предполагаемое использование и рендеринг). Например, U+0319 должен появиться ниже буквы

"мое приложение выглядит следующим образом: иногда я работаю в командной строке в xterm с программами, которые выводят длинные числа, которые мне трудно читать. Поэтому я хочу использовать диакритические знаки для добавления точек или запятых, чтобы 2938485860 становилось 2.938.485.860 и форматирование сохранялось. U+0321 не очень хорошо для этого...."

Если вы хотите добавить точки к числам в строке, есть способ сделать это. В юникоде есть набор "Заключенных буквенно-цифровых символов", который включает числа с конечными периодами.

2.938.485.860 -> ⒉93⒏48⒌860

Обратите внимание, что в терминале они могут быть нечитаемыми. Вы могли бы альтернативно попробовать

  • 2–38–85–60 - использование кружочков на каждой третьей цифре (тоже безобразно)
  • 2̲9384̲8̲5̲860 - использование - подчеркнутые символы
  • 2388560 - изменение некоторых цифр на "МАТЕМАТИЧЕСКИЙ ШИРОКИЙ ЦИФР SANS-SERIF"

Да, он находится на компакт-диске, который поставляется вместе с TUS, или загружается с unicode.org: База данных символов Unicode.

Другие вопросы по тегам