Существует ли известная схема URI или пространство имен URN для символов Юникода?

Мне нужно сослаться на символ Unicode с URI. В следующих ссылках IANA перечислены несколько схем и пространств имен, но ничего не упоминается об идентификаторах символов Unicode. Кто-нибудь знает, если что-то подобное уже существует?

Я надеялся найти что-то вроде

  • unicode://U+0394
  • urn:unicode://0394
  • http://unicode.org/unicode/0394

для греческой заглавной буквы дельта Δ.

Если кому-то интересно, это для семантического веб-приложения, которое использует URI в качестве идентификаторов для понятий, в том числе понятий символов Unicode.

3 ответа

Решение

Я боюсь, что нет URL или URN для ссылки на авторитетную информацию о символах Unicode в целом. В стандарте Unicode информация об отдельных символах частично находится в так называемой символьной базе данных (в основном обычные текстовые файлы в определенных форматах), частично в таблицах кодов (файлы PDF). Ни один из них не предлагает способ указать на отдельного персонажа. Более того, информация там не является исчерпывающей: существуют важные замечания по отдельным символам информации, разбросанные по всему стандарту.

Сайт Decodeunicode имеет индивидуально адресуемые элементы, такие как

http://www.decodeunicode.org/en/u+0394

но его информационное содержание сильно варьируется и, как правило, очень ограничено. Он не является официальным, и в настоящее время он содержит только Unicode 5.0.

Сайт http://www.fileformat.info/ гораздо более систематичен, но он также неофициальный. Он в основном ограничен формальными свойствами и данными, полученными из них, плюс комментарии, извлеченные из диаграмм кодов, плюс инструкции по вводу символа в Windows, плюс информация о поддержке шрифтов - но это довольно много! Пример:

http://www.fileformat.info/info/unicode/char/0394/

[РЕДАКТИРОВАТЬ]: обнаружил, что этот URL соответствует вашим потребностям: http://unicode.org/cldr/utility/character.jsp?a=1F40F

,

Ну, есть URL, ссылающийся на авторитетную информацию в базе данных Unicode, хотя он не описывает (как сказано в другом ответе) всю информацию об одном конкретном символе.

У вас есть следующий URL, указывающий на последнюю базу данных Unicode. Это простой список существующих допустимых символов Юникода. Некоторые предстоящие символы отсутствуют (㋿), и вы должны ожидать, что он будет изменчивым.

Содержимое выглядит следующим образом, которое не так удобно использовать как есть.

$ grep -ai kangaroo UnicodeData.txt -C 7
1F991;SQUID;So;0;ON;;;;;N;;;;;
1F992;GIRAFFE FACE;So;0;ON;;;;;N;;;;;
1F993;ZEBRA FACE;So;0;ON;;;;;N;;;;;
1F994;HEDGEHOG;So;0;ON;;;;;N;;;;;
1F995;SAUROPOD;So;0;ON;;;;;N;;;;;
1F996;T-REX;So;0;ON;;;;;N;;;;;
1F997;CRICKET;So;0;ON;;;;;N;;;;;
1F998;KANGAROO;So;0;ON;;;;;N;;;;;
1F999;LLAMA;So;0;ON;;;;;N;;;;;
1F99A;PEACOCK;So;0;ON;;;;;N;;;;;
1F99B;HIPPOPOTAMUS;So;0;ON;;;;;N;;;;;
1F99C;PARROT;So;0;ON;;;;;N;;;;;
1F99D;RACCOON;So;0;ON;;;;;N;;;;;
1F99E;LOBSTER;So;0;ON;;;;;N;;;;;
1F99F;MOSQUITO;So;0;ON;;;;;N;;;;;

Вы можете создать хакерское пространство имен "на основе хеша" с таким суффиксом, как этот, но это определенно нестандартно.

Так как это также помечено как semantic-web , я попытаюсь выбрать URI, которые легко (и постоянно) разыменовываются и которые нельзя спутать с документом, описывающим этот символ: data:схема. Это может относиться не только к символу в Unicode, но и к любой кодировке, а также к любой ее строке.

data:;charset=utf-8,%CE%94

Попытка открыть этот URI должна привести к text/plainфайл с одним символом в качестве содержимого.

Если система принимает IRI (как это делают многие семантические веб-приложения), символ может быть включен напрямую:

data:;charset=utf-8,Δ

Это сопоставлено с тем же URI, что и показано выше, и ваш браузер может преобразовать его напрямую. В этом случае необходимо указать UTF-8, так как отображение не определено для других кодировок.

Другие вопросы по тегам