Описание тега astral-plane
Символы Юникода за пределами 16-битной базовой многоязычной плоскости. Те, для которых требуются суррогатные пары на языках с UTF-16 в качестве собственной кодировки текста.
8
ответов
Mysql-сервер не поддерживает 4-х байтовые символы utf8
Я получил сообщение об ошибке сервера при запуске компонента передачи данных с Sql Server на MySql db. Сообщение об ошибке гласит следующее: [MySql][ODBC 5.1 Driver][mysqld-5.0.67-community-nt-log]Server does not support 4-byte encoded UTF8 characte…
11 дек '09 в 20:30
2
ответа
Семантика Python для диапазонов юникода с участием астральных плоскостей
Какова точная семантика для диапазонов символов в регулярных выражениях, если одна или обе конечные точки диапазона находятся за пределами BMP? Я заметил, что следующий ввод ведет себя по-разному в Python 2.7 и 3.5: import re bool(re.match(u"[\u1000…
21 апр '16 в 08:05
1
ответ
Может ли MongoDB хранить и манипулировать строками UTF-8 с кодовыми точками вне базовой многоязычной плоскости?
В MongoDB 2.0.6 при попытке сохранить документы или документы запроса, содержащие строковые поля, где значение строки включает символы вне BMP, я получаю массу ошибок, таких как: "Не правильно UTF-16: 55357", или "буфер слишком маленький" Какие наст…
31 июл '12 в 19:30
2
ответа
Символы соответствия регулярного выражения Java вне Базовой многоязычной плоскости
Как я могу сопоставить символы (с целью их удаления) за пределами базовой многоязычной плоскости Юникода в Java?
27 окт '10 в 16:43
3
ответа
Предупреждение возникает при вставке 4-байтового Unicode в MySQL
Посмотрите на следующее: /home/kinka/workspace/py/tutorial/tutorial/pipelines.py:33: Warning: Incorrect string value: '\xF0\x9F\x91\x8A\xF0\x9F...' for column 't_content' at row 1 n = self.cursor.execute(self.sql, (item['topic'], item['url'], item['…
29 май '12 в 11:53
2
ответа
Как ввести Unicode не BMP (шестнадцатеричный с более чем 4 символами) в качестве ввода в Mathematica
Описание проблемы: использование Mathematica "\:nnnn" в качестве синтаксиса для ввода Unicode. Например, если мы входим "\:6c34", мы получаем "水" ("вода" по-китайски). Но что, если кто-то хочет войти "\:1f618" (лицо целует). Когда я попробовал это, …
09 ноя '11 в 00:56
1
ответ
Как мне ввести 4-байтовые символы UTF-8?
Я пишу небольшое приложение, которое мне нужно протестировать с символами utf-8 разного количества байтов. Я могу ввести символы юникода для тестирования, которые хорошо закодированы в utf-8 с 1,2 и 3 байтами, выполнив, например: string in = "pi = \…
15 окт '08 в 13:23
2
ответа
Unicode SMP "персонаж" в C# char
Я пытаюсь определить последствия кодирования символов для программной системы, которую я планирую, и обнаружил что-то странное во время теста. Насколько мне известно, C# внутренне использует UTF-16, который (насколько мне известно) охватывает каждую…
10 май '13 в 15:48
1
ответ
Удалить символы Юникода в различных диапазонах в JavaScript
Я пытаюсь удалить каждый символ Unicode в строке, если он попадает в любой диапазон ниже. \uD800-\uDFFF \u1D800-\u1DFFF \u2D800-\u2DFFF \u3D800-\u3DFFF \u4D800-\u4DFFF \u5D800-\u5DFFF \u6D800-\u6DFFF \u7D800-\u7DFFF \u8D800-\u8DFFF \u9D800-\u9DFFF \…
02 июн '13 в 02:27
2
ответа
Поддержка Java для не-BMP символов Unicode (т.е. кодовые точки> 0xFFFF) в их библиотеке регулярных выражений?
В настоящее время я использую Java 6 (у меня нет возможности перейти на Java 7), и я пытаюсь использовать пакет java.util.regex для сопоставления с образцом строк, содержащих символы Unicode. Я знаю, что java.lang.String поддерживает дополнительные …
23 мар '11 в 18:06
2
ответа
Как отрисовать 32-битные символы Unicode в Google V8 (и Nodejs)
У кого-нибудь есть идеи, как визуализировать символы юникода "астральной плоскости" (чьи CID превышают 0xffff) в google v8, javascript vm, который управляет как Google Chrome, так и nodejs? как ни странно, когда я даю Google Chrome (он идентифицируе…
08 авг '11 в 17:11
3
ответа
Каковы наиболее распространенные не-BMP символы Unicode в реальном использовании?
По вашему опыту, какие символы Unicode, кодовые точки, диапазоны за пределами BMP (базовой многоязычной плоскости) являются наиболее распространенными до сих пор? Это те, которые требуют 4 байта в UTF-8 или суррогаты в UTF-16. Я бы ожидал, что ответ…
06 апр '11 в 13:36
2
ответа
Строковые и 4-байтовые символы Unicode
У меня есть один вопрос о строках и символах в C#. Я обнаружил, что строка в C# является строкой Unicode, а char занимает 2 байта. Таким образом, каждый символ в кодировке UTF-16. Это здорово, но я также читал в Википедии, что есть некоторые символы…
23 дек '12 в 11:53
1
ответ
Печать кода Unicode Astral Plane указывает на консоль, используя int
Пожалуйста, смотрите здесь для связанных вопросов. Тем не мение, char идет к 0xffff (или же 65535). Мне нужно написать 0xd800df46 (или же 66374), Готическая буква Faihu, так что кастинг int в char не будет работать. Я делаю преобразование в порядке,…
14 сен '09 в 22:31
2
ответа
Регулярное выражение в ruby 1.8.7, которое обнаружит 4-байтовый символ Unicode
Может кто-нибудь сказать мне, как я написал бы регулярное выражение ruby в ruby 1.8.7, чтобы обнаружить присутствие 4-байтового символа юникода (особенно смайликов)? Я пытаюсь учесть тот факт, что mysql по умолчанию не позволяет вам хранить 4-ба…
15 окт '11 в 00:21
2
ответа
Дополнительная многоязычная плоскость Unicode в Java
Я хочу работать с SMP(дополнительная многоязычная плоскость) в Java. На самом деле, я хочу напечатать символ, кодовая точка которого больше 0xFFFF. Я использовал эту строку кода: int hexCodePoint = Character.toCodePoint('\uD801', '\uDC02' ); иметь к…
20 янв '10 в 18:45
2
ответа
Чтение Java в символьных потоках с дополнительными символами юникода
У меня проблемы с чтением дополнительных символов Юникода с использованием Java. У меня есть файл, который потенциально содержит символы в дополнительном наборе (что-нибудь больше, чем \uFFFF). Когда я настроил свой InputStreamReader для чтения файл…
11 окт '11 в 04:12
1
ответ
В OS X, как я могу ввести символ Unicode второй плоскости со стандартным редактором метода ввода?
Я хочу проверить, что мое приложение Какао правильно обрабатывает ввод за пределами основной многоязычной плоскости, и о вставке копий в него не может быть и речи. Я не знаю, как ввести персонажа за пределами BMP! Я настроил японский в качестве вход…
03 янв '11 в 19:35
3
ответа
Юникод символы из кода в javascript для кодов> 0xFFFF
Мне нужно получить строку / символ из кода Юникода и, наконец, поместить его в текстовый узел DOM, чтобы добавить на страницу HTML с помощью клиентского JavaScript. В настоящее время я занимаюсь: String.fromCharCode(parseInt(charcode, 16)); где char…
27 мар '11 в 01:03
4
ответа
В Windows, как вы вводите символ вне базовой многоязычной плоскости Unicode?
Я знаю, что Windows поддерживает дополнительные самолеты начиная с Windows XP. У меня есть шрифты, которые, как я знаю, имеют символы вне базовой многоязычной плоскости (BMP). Для этих символов кодовая точка Unicode состоит из пяти шестнадцатеричных…
18 мар '12 в 02:26