Существует ли известная схема URI или пространство имен URN для символов Юникода?
Мне нужно сослаться на символ Unicode с URI. В следующих ссылках IANA перечислены несколько схем и пространств имен, но ничего не упоминается об идентификаторах символов Unicode. Кто-нибудь знает, если что-то подобное уже существует?
- http://www.iana.org/assignments/uri-schemes.html
- http://www.iana.org/assignments/urn-namespaces/urn-namespaces.xml
Я надеялся найти что-то вроде
unicode://U+0394
urn:unicode://0394
http://unicode.org/unicode/0394
для греческой заглавной буквы дельта Δ.
Если кому-то интересно, это для семантического веб-приложения, которое использует URI в качестве идентификаторов для понятий, в том числе понятий символов Unicode.
3 ответа
Я боюсь, что нет URL или URN для ссылки на авторитетную информацию о символах Unicode в целом. В стандарте Unicode информация об отдельных символах частично находится в так называемой символьной базе данных (в основном обычные текстовые файлы в определенных форматах), частично в таблицах кодов (файлы PDF). Ни один из них не предлагает способ указать на отдельного персонажа. Более того, информация там не является исчерпывающей: существуют важные замечания по отдельным символам информации, разбросанные по всему стандарту.
Сайт Decodeunicode имеет индивидуально адресуемые элементы, такие как
http://www.decodeunicode.org/en/u+0394
но его информационное содержание сильно варьируется и, как правило, очень ограничено. Он не является официальным, и в настоящее время он содержит только Unicode 5.0.
Сайт http://www.fileformat.info/ гораздо более систематичен, но он также неофициальный. Он в основном ограничен формальными свойствами и данными, полученными из них, плюс комментарии, извлеченные из диаграмм кодов, плюс инструкции по вводу символа в Windows, плюс информация о поддержке шрифтов - но это довольно много! Пример:
[РЕДАКТИРОВАТЬ]: обнаружил, что этот URL соответствует вашим потребностям: http://unicode.org/cldr/utility/character.jsp?a=1F40F
,
Ну, есть URL, ссылающийся на авторитетную информацию в базе данных Unicode, хотя он не описывает (как сказано в другом ответе) всю информацию об одном конкретном символе.
У вас есть следующий URL, указывающий на последнюю базу данных Unicode. Это простой список существующих допустимых символов Юникода. Некоторые предстоящие символы отсутствуют (㋿), и вы должны ожидать, что он будет изменчивым.
Содержимое выглядит следующим образом, которое не так удобно использовать как есть.
$ grep -ai kangaroo UnicodeData.txt -C 7
1F991;SQUID;So;0;ON;;;;;N;;;;;
1F992;GIRAFFE FACE;So;0;ON;;;;;N;;;;;
1F993;ZEBRA FACE;So;0;ON;;;;;N;;;;;
1F994;HEDGEHOG;So;0;ON;;;;;N;;;;;
1F995;SAUROPOD;So;0;ON;;;;;N;;;;;
1F996;T-REX;So;0;ON;;;;;N;;;;;
1F997;CRICKET;So;0;ON;;;;;N;;;;;
1F998;KANGAROO;So;0;ON;;;;;N;;;;;
1F999;LLAMA;So;0;ON;;;;;N;;;;;
1F99A;PEACOCK;So;0;ON;;;;;N;;;;;
1F99B;HIPPOPOTAMUS;So;0;ON;;;;;N;;;;;
1F99C;PARROT;So;0;ON;;;;;N;;;;;
1F99D;RACCOON;So;0;ON;;;;;N;;;;;
1F99E;LOBSTER;So;0;ON;;;;;N;;;;;
1F99F;MOSQUITO;So;0;ON;;;;;N;;;;;
Вы можете создать хакерское пространство имен "на основе хеша" с таким суффиксом, как этот, но это определенно нестандартно.
Так как это также помечено как semantic-web , я попытаюсь выбрать URI, которые легко (и постоянно) разыменовываются и которые нельзя спутать с документом, описывающим этот символ:
data:
схема. Это может относиться не только к символу в Unicode, но и к любой кодировке, а также к любой ее строке.
data:;charset=utf-8,%CE%94
Попытка открыть этот URI должна привести к
text/plain
файл с одним символом в качестве содержимого.
Если система принимает IRI (как это делают многие семантические веб-приложения), символ может быть включен напрямую:
data:;charset=utf-8,Δ
Это сопоставлено с тем же URI, что и показано выше, и ваш браузер может преобразовать его напрямую. В этом случае необходимо указать UTF-8, так как отображение не определено для других кодировок.