Описание тега surrogate-pairs

Символы Юникода с кодом выше 0xFFFF кодируются в UTF-16 парами 16-битных кодовых единиц, называемых ** суррогатными парами **.
1 ответ

Получение SurrogatePairs из документов MS Word

Мы написали и приложение, которое откроет документы Microsoft Word, прочитает весь текст внутри, а затем отправит эти данные во внешнюю систему для обработки. В прошлом это работало нормально, но с тех пор, как мы приняли Unicode, у нас возникли нек…
17 дек '12 в 17:15
1 ответ

Python 2.7: Странное поведение Юникода

Я испытываю следующее поведение в Python 2.7: >>> a1 = u'\U0001f04f' #1 >>> a2 = u'\ud83c\udc4f' #2 >>> a1 == a2 #3 False >>> a1.encode('utf8') == a2.encode('utf8') #4 True >>> a1.encode('utf8').decode('u…
2 ответа

Семантика Python для диапазонов юникода с участием астральных плоскостей

Какова точная семантика для диапазонов символов в регулярных выражениях, если одна или обе конечные точки диапазона находятся за пределами BMP? Я заметил, что следующий ввод ведет себя по-разному в Python 2.7 и 3.5: import re bool(re.match(u"[\u1000…
1 ответ

Как работает концепция "Суррогатная пара" в базе данных?

Мой вопрос относится к базам данных (и в частности к SQL Server): в официальном руководстве упоминается, что при использовании "NVARCHAR/NCHAR" используется "2 байта памяти на символ" и "если необходима суррогатная пара, символу потребуется 4 байта …
02 мар '15 в 14:04
1 ответ

Как работать с суррогатными парами в Python?

Это продолжение конвертации в эмодзи. В этом вопросе у ОП была json.dumps()файл с эмодзи в виде суррогатной пары - \ud83d\ude4f, У него были проблемы с чтением файла и правильным переводом смайликов, и правильный ответ был на json.loads() каждая стр…
01 июл '16 в 13:55
3 ответа

Есть ли кодировка в Unicode, где каждый "символ" представляет собой только одну кодовую точку?

Попытка перефразировать: Можете ли вы отобразить каждую комбинацию символов в одну кодовую точку? Я новичок в Unicode, но мне кажется, что нет кодировки, нормализации или представления, где один символ был бы одной точкой кода в каждом случае в Unic…
2 ответа

Являются ли суррогатные пары единственным способом представления кодовых точек размером более 2 байтов в UTF-16?

Я знаю, что это, вероятно, глупый вопрос, но я должен быть уверен в этом вопросе. Поэтому мне нужно знать, например, говорит ли язык программирования, что его тип String использует кодировку UTF-16, означает ли это: он будет использовать 2 байта для…
10 дек '14 в 08:54
1 ответ

Eclipse IDE, обрабатывающая смайлики с использованием суррогатных пар

Я не могу найти четкий ответ на это. Поддерживает ли ECLIPSE IDE эмодзи? Я много читал о суррогатных парах здесь о переполнении стека, но я не могу получить четкий ответ на этот вопрос. Мне приходится читать в текстовом файле символ за символом, и я…
01 ноя '16 в 19:29
1 ответ

PYTHON RE Не разделяйте символы Юникода на суррогатные пары при сопоставлении

Кто знает, возможно ли запретить регулярные выражения при разделении кодовых точек на суррогатные пары. Смотрите следующий пример: Как это сейчас: $ te = u'\U0001f600\U0001f600' $ flags1 = regex.findall(".", te, re.UNICODE) $ flags1 >>> [u'…
17 авг '18 в 00:04
2 ответа

Обработка суррогатных значений Unicode в строках Java

Рассмотрим следующий код: byte aBytes[] = { (byte)0xff,0x01,0,0, (byte)0xd9,(byte)0x65, (byte)0x03,(byte)0x04, (byte)0x05, (byte)0x06, (byte)0x07, (byte)0x17,(byte)0x33, (byte)0x74, (byte)0x6f, 0, 1, 2, 3, 4, 5, 0 }; String sCompressedBytes = new St…
08 июн '09 в 16:45
2 ответа

C++: как поддерживать суррогатные символы в utf8

У нас есть приложение, написанное в базовой кодировке utf-8, которое поддерживает BMP utf-8 (3 байта). Тем не менее, существует потребность в поддержке суррогатных пар. Я где-то читал, что суррогатные символы не поддерживаются в utf-8. Это правда? Е…
2 ответа

Обнаружение и получение кодовых точек и суррогатов из строки Delphi

Я пытаюсь лучше понять суррогатные пары и реализацию Unicode в Delphi. Если я вызову length() для строки Unicode S:= 'Ĥà̲V̂e' в Delphi, я вернусь, 8. Это связано с тем, что длины отдельных символов [Ĥ],[à̲],[V̂] и [e] равны 2, 3, 2 и 1 соответственно. Э…
14 авг '15 в 23:47
1 ответ

Weka: Как я могу реализовать суррогатное разделение в дереве решений J48?

Кто-нибудь может мне помочь реализовать альтернативную обработку пропущенных значений в алгоритме J48 с использованием Weka API в Java. Я уверен, что использовать предварительные подходы перед тренировкой J48 легко. Но как насчет использования сурро…
0 ответов

Java Xml Transformation избегает суррогатных единиц кода, которые представляют дополнительные символы

Я выполняю веб-приложение в контейнере сервлетов Tomcat 8.0. В запросе я пытаюсь преобразовать входные данные в XML с кодом ниже. Первый символ входных данных - это дополнительный символ Unicode U+16980, представленный в виде пары символов \ ud81a \…
26 дек '16 в 23:22
1 ответ

Как выявить суррогатные пары в String в Perl

Я работаю с базой Perl-кода для проверки ввода данных от клиентов, моя цель - блокировать суррогатные символы. Моя мысль - сначала кодировать вводимые пользователем данные как UTF-16 и foreach my $messageChar (@MessageChars) { my $messageCharUTF16 =…
22 мар '18 в 03:33
3 ответа

Python: получение правильной длины строки, если она содержит суррогатные пары

Рассмотрим следующий обмен на IPython: In [1]: s = u'華袞與緼同歸' In [2]: len(s) Out[2]: 8 Правильный вывод должен был быть 7, но поскольку пятый из этих семи китайских символов имеет высокую кодовую точку Unicode, он представлен в UTF-8 "суррогатной пар…
16 окт '12 в 03:14
1 ответ

Как я могу хранить символы UTF-16 в базе данных Postgres?

Я пытаюсь сохранить текст (например, č) в базе данных Postgres, однако при получении этого значения оно отображается на экране как ?, Я не уверен, почему это происходит, у меня сложилось впечатление, что это был персонаж, который не был поддержан в …
09 дек '11 в 16:29
1 ответ

Преобразовать из формата \ud835 в "" в C# [UWP]

У меня есть строка с некоторыми вонючими персонажами (например) " ", Мне нужно проверить, если список содержит первый элемент в строке. Но если я его индексирую, он всегда становится \ud835, После использования Char.ConvertFromUtf32 (\ud835) и некот…
10 авг '18 в 23:07
1 ответ

Является ли String.Replace(string,string) Unicode безопасным в отношении суррогатных пар?

Я пытаюсь найти лучший способ создать функцию, эквивалентную String.Replace("oldValue","newValue");это может обращаться с суррогатными парами. Меня беспокоит то, что если в строке есть суррогатные пары, и есть вероятность того, что строка соответств…
04 май '18 в 18:06
0 ответов

Попытка использовать суррогатные пары

Я пытаюсь отобразить игральную карту с помощью Unicode в Java/Android Studio. Юникод для карты - U+1F0A1, который, как я понимаю, не может быть использован и должен быть преобразован в суррогатные пары. код, который я ввел, public String getShortNam…
25 сен '17 в 19:08