Каковы наиболее распространенные не-BMP символы Unicode в реальном использовании?

По вашему опыту, какие символы Unicode, кодовые точки, диапазоны за пределами BMP (базовой многоязычной плоскости) являются наиболее распространенными до сих пор? Это те, которые требуют 4 байта в UTF-8 или суррогаты в UTF-16.

Я бы ожидал, что ответом будут китайские и японские символы, используемые в именах, но не включенные в наиболее распространенные многобайтовые наборы символов CJK, но в проекте, над которым я больше всего работаю, английский Викисловарь, мы обнаружили, что готический алфавит гораздо чаще встречается до сих пор.

ОБНОВИТЬ

Я написал пару программных инструментов для сканирования всей Википедии на наличие символов, отличных от BMP, и обнаружил, к моему удивлению, что даже в японской Википедии готический алфавит является наиболее распространенным. Это также верно в китайской Википедии, но в ней также было много китайских символов, которые использовались до 50 или 70 раз, включая ", ", "и".

3 ответа

Решение

Emoji в настоящее время являются наиболее распространенными не-BMP персонажами на сегодняшний день. также известный как U+1F602 FACE WITH TEARS OF JOY, является наиболее распространенным в общедоступном потоке Twitter. Это происходит чаще, чем тильда!

Отличный вопрос!

Ответ - математические буквы. В декабре прошлого года я просмотрел весь корпус открытого доступа PubMed и придумал эти цифры для астральных персонажей.

Первое число на рисунках ниже показывает, сколько копий каждой заданной кодовой точки я нашел во всем корпусе. Однако сначала, чтобы дать вам представление об относительных частотах, вот десять лучших кодовых точек trans-ASCII в этом корпусе:

 2663710 U+002013 ‹–›  GC=Pd    EN DASH
 1065594 U+0000A0 ‹ ›  GC=Zs    NO-BREAK SPACE
 1009762 U+0000B1 ‹±›  GC=Sm    PLUS-MINUS SIGN
  784139 U+002212 ‹−›  GC=Sm    MINUS SIGN
  602377 U+002003 ‹ ›  GC=Zs    EM SPACE
  528576 U+0003BC ‹μ›  GC=Ll    GREEK SMALL LETTER MU
  519669 U+0003B2 ‹β›  GC=Ll    GREEK SMALL LETTER BETA
  512312 U+0003B1 ‹α›  GC=Ll    GREEK SMALL LETTER ALPHA
  491842 U+00200A ‹ ›  GC=Zs    HAIR SPACE
  462505 U+0000B0 ‹°›  GC=So    DEGREE SIGN

И вот теперь кодовые точки транс-BMP, в порядке убывания частоты:

     544 U+01D49E ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL C
     450 U+01D4AF ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL T
     385 U+01D4AE ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL S
     292 U+01D49F ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL D
     285 U+01D4B3 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL X
     262 U+01D4A9 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL N
     258 U+01D4AB ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL P
     254 U+01D4A2 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL G
     185 U+01D49C ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL A
     178 U+01D53C ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL E
     137 U+01D4AA ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL O
      56 U+01D4A5 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL J
      48 U+01D4A6 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL K
      44 U+01D4B1 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL V
      43 U+01D4B2 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL W
      42 U+01D4B4 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL Y
      41 U+01D4B5 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL Z
      35 U+01D4B0 ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL U
      30 U+01D4AC ‹›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL Q
      23 U+01D54A ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL S
      21 U+01D539 ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL B
      19 U+01D5A7 ‹›  GC=Lu    MATHEMATICAL SANS-SERIF CAPITAL H
      18 U+01D517 ‹›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL T
      15 U+01D4C3 ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL N
      14 U+01D535 ‹›  GC=Ll    MATHEMATICAL FRAKTUR SMALL X
      13 U+01D4BF ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL J
      11 U+01D540 ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL I
       9 U+01D465 ‹›  GC=Ll    MATHEMATICAL ITALIC SMALL X
       9 U+01D4CE ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL Y
       9 U+01D538 ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL A
       8 U+01D4C2 ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL M
       8 U+01D54D ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL V
       7 U+01D4B6 ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL A
       7 U+01D4BE ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL I
       7 U+01D4CC ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL W
       7 U+01D516 ‹›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL S
       7 U+01D4BE ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL I
       7 U+01D4CC ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL W
       7 U+01D516 ‹›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL S
       4 U+01D4CF ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL Z
       4 U+01D53B ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL D
       4 U+01D54B ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL T
       3 U+01D4BB ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL F
       3 U+01D4CA ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL U
       3 U+01D507 ‹›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL D
       3 U+01D542 ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL K
       3 U+01D546 ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL O
       2 U+01D4BD ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL H
       2 U+01D4C5 ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL P
       2 U+01D505 ‹›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL B
       2 U+01D50E ‹›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL K
       2 U+01D541 ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL J
       2 U+01D543 ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL L
       2 U+100002 ‹›  GC=Co    <private use character>
       1 U+01D4B8 ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL C
       1 U+01D4C1 ‹›  GC=Ll    MATHEMATICAL SCRIPT SMALL L
       1 U+01D53D ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL F
       1 U+01D53E ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL G
       1 U+01D54C ‹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL U
       1 U+01D6A4 ‹›  GC=Ll    MATHEMATICAL ITALIC SMALL DOTLESS I
       1 U+01D7D9 ‹›  GC=Nd    MATHEMATICAL DOUBLE-STRUCK DIGIT ONE

Я действительно хотел бы знать, что они использовали U+100002, чтобы сделать.:(

Если они не отображаются в вашем браузере, вам следует установить шрифт Symbola Джорджа Дуроса. В нем также есть все забавные кодовые точки Unicode 6.0.0.

Для меня математические буквенно-цифровые символы, которые используются для математического набора шрифтов OpenType, таких как Cambria Math.

Другие вопросы по тегам