Каковы наиболее распространенные не-BMP символы Unicode в реальном использовании?
По вашему опыту, какие символы Unicode, кодовые точки, диапазоны за пределами BMP (базовой многоязычной плоскости) являются наиболее распространенными до сих пор? Это те, которые требуют 4 байта в UTF-8 или суррогаты в UTF-16.
Я бы ожидал, что ответом будут китайские и японские символы, используемые в именах, но не включенные в наиболее распространенные многобайтовые наборы символов CJK, но в проекте, над которым я больше всего работаю, английский Викисловарь, мы обнаружили, что готический алфавит гораздо чаще встречается до сих пор.
ОБНОВИТЬ
Я написал пару программных инструментов для сканирования всей Википедии на наличие символов, отличных от BMP, и обнаружил, к моему удивлению, что даже в японской Википедии готический алфавит является наиболее распространенным. Это также верно в китайской Википедии, но в ней также было много китайских символов, которые использовались до 50 или 70 раз, включая ", ", "и".
3 ответа
Emoji в настоящее время являются наиболее распространенными не-BMP персонажами на сегодняшний день. также известный как U+1F602 FACE WITH TEARS OF JOY, является наиболее распространенным в общедоступном потоке Twitter. Это происходит чаще, чем тильда!
Отличный вопрос!
Ответ - математические буквы. В декабре прошлого года я просмотрел весь корпус открытого доступа PubMed и придумал эти цифры для астральных персонажей.
Первое число на рисунках ниже показывает, сколько копий каждой заданной кодовой точки я нашел во всем корпусе. Однако сначала, чтобы дать вам представление об относительных частотах, вот десять лучших кодовых точек trans-ASCII в этом корпусе:
2663710 U+002013 ‹–› GC=Pd EN DASH
1065594 U+0000A0 ‹ › GC=Zs NO-BREAK SPACE
1009762 U+0000B1 ‹±› GC=Sm PLUS-MINUS SIGN
784139 U+002212 ‹−› GC=Sm MINUS SIGN
602377 U+002003 ‹ › GC=Zs EM SPACE
528576 U+0003BC ‹μ› GC=Ll GREEK SMALL LETTER MU
519669 U+0003B2 ‹β› GC=Ll GREEK SMALL LETTER BETA
512312 U+0003B1 ‹α› GC=Ll GREEK SMALL LETTER ALPHA
491842 U+00200A ‹ › GC=Zs HAIR SPACE
462505 U+0000B0 ‹°› GC=So DEGREE SIGN
И вот теперь кодовые точки транс-BMP, в порядке убывания частоты:
544 U+01D49E ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL C
450 U+01D4AF ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL T
385 U+01D4AE ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL S
292 U+01D49F ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL D
285 U+01D4B3 ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL X
262 U+01D4A9 ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL N
258 U+01D4AB ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL P
254 U+01D4A2 ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL G
185 U+01D49C ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL A
178 U+01D53C ‹› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL E
137 U+01D4AA ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL O
56 U+01D4A5 ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL J
48 U+01D4A6 ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL K
44 U+01D4B1 ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL V
43 U+01D4B2 ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL W
42 U+01D4B4 ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL Y
41 U+01D4B5 ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL Z
35 U+01D4B0 ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL U
30 U+01D4AC ‹› GC=Lu MATHEMATICAL SCRIPT CAPITAL Q
23 U+01D54A ‹› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL S
21 U+01D539 ‹› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL B
19 U+01D5A7 ‹› GC=Lu MATHEMATICAL SANS-SERIF CAPITAL H
18 U+01D517 ‹› GC=Lu MATHEMATICAL FRAKTUR CAPITAL T
15 U+01D4C3 ‹› GC=Ll MATHEMATICAL SCRIPT SMALL N
14 U+01D535 ‹› GC=Ll MATHEMATICAL FRAKTUR SMALL X
13 U+01D4BF ‹› GC=Ll MATHEMATICAL SCRIPT SMALL J
11 U+01D540 ‹› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL I
9 U+01D465 ‹› GC=Ll MATHEMATICAL ITALIC SMALL X
9 U+01D4CE ‹› GC=Ll MATHEMATICAL SCRIPT SMALL Y
9 U+01D538 ‹› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL A
8 U+01D4C2 ‹› GC=Ll MATHEMATICAL SCRIPT SMALL M
8 U+01D54D ‹› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL V
7 U+01D4B6 ‹› GC=Ll MATHEMATICAL SCRIPT SMALL A
7 U+01D4BE ‹› GC=Ll MATHEMATICAL SCRIPT SMALL I
7 U+01D4CC ‹› GC=Ll MATHEMATICAL SCRIPT SMALL W
7 U+01D516 ‹› GC=Lu MATHEMATICAL FRAKTUR CAPITAL S
7 U+01D4BE ‹› GC=Ll MATHEMATICAL SCRIPT SMALL I
7 U+01D4CC ‹› GC=Ll MATHEMATICAL SCRIPT SMALL W
7 U+01D516 ‹› GC=Lu MATHEMATICAL FRAKTUR CAPITAL S
4 U+01D4CF ‹› GC=Ll MATHEMATICAL SCRIPT SMALL Z
4 U+01D53B ‹› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL D
4 U+01D54B ‹› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL T
3 U+01D4BB ‹› GC=Ll MATHEMATICAL SCRIPT SMALL F
3 U+01D4CA ‹› GC=Ll MATHEMATICAL SCRIPT SMALL U
3 U+01D507 ‹› GC=Lu MATHEMATICAL FRAKTUR CAPITAL D
3 U+01D542 ‹› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL K
3 U+01D546 ‹› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL O
2 U+01D4BD ‹› GC=Ll MATHEMATICAL SCRIPT SMALL H
2 U+01D4C5 ‹› GC=Ll MATHEMATICAL SCRIPT SMALL P
2 U+01D505 ‹› GC=Lu MATHEMATICAL FRAKTUR CAPITAL B
2 U+01D50E ‹› GC=Lu MATHEMATICAL FRAKTUR CAPITAL K
2 U+01D541 ‹› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL J
2 U+01D543 ‹› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL L
2 U+100002 ‹› GC=Co <private use character>
1 U+01D4B8 ‹› GC=Ll MATHEMATICAL SCRIPT SMALL C
1 U+01D4C1 ‹› GC=Ll MATHEMATICAL SCRIPT SMALL L
1 U+01D53D ‹› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL F
1 U+01D53E ‹› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL G
1 U+01D54C ‹› GC=Lu MATHEMATICAL DOUBLE-STRUCK CAPITAL U
1 U+01D6A4 ‹› GC=Ll MATHEMATICAL ITALIC SMALL DOTLESS I
1 U+01D7D9 ‹› GC=Nd MATHEMATICAL DOUBLE-STRUCK DIGIT ONE
Я действительно хотел бы знать, что они использовали U+100002, чтобы сделать.:(
Если они не отображаются в вашем браузере, вам следует установить шрифт Symbola Джорджа Дуроса. В нем также есть все забавные кодовые точки Unicode 6.0.0.
Для меня математические буквенно-цифровые символы, которые используются для математического набора шрифтов OpenType, таких как Cambria Math.