Описание тега unicode-normalization

Нормализация Unicode относится к стандартизации строк Unicode. Формы нормализации устраняют различия в двоичном представлении идентичных строк Unicode.
2 ответа

Строка slugify java для не английских символов

Мне нужно создать строки слагов (понятные человеку слагы URL из любой строки) для английских и неанглийских символов... например, китайских, японских, кириллических и любых других. Таким образом, каждая строка (для всех языков) должна быть переведен…
3 ответа

Заменив "\xf3" и "\xe9" их нормальными формами

Я собираю данные с веб-сайта, на котором есть буквы не английского алфавита, такие как Vitória, которые полностью запутывают мои данные, так как вывод Vit \xf3ria . Как заменить \xf3 и другие подобные? пс: text.replace('\xf3', '') не работает. И, ес…
1 ответ

PHP конвертирует нестандартные метки и специальные символы в обычные

Есть ли способ конвертировать символы, такие как: É É é à Ç etc а также этот тип восклицательного знака с пробелом после его встроенного: ! Для их нормальных версий. На данный момент у меня есть такой код: $linesvalue = str_replace(["Ç","ç"],"ç",$li…
2 ответа

Как решить UnicodeDecodeError при чтении файла с датскими символами?

Я прочитал похожие вопросы о переполнении стека, однако ни один из них не решает проблему с юникодом, которую я имею: кодек 'ascii' не может декодировать байт 0xc3 в позиции 302. Попробовал: импорт sys reload(sys) sys.setdefaultencoding("utf-8") одн…
0 ответов

QWebView::findText не работает с объединением диакритических меток в Юникоде

Я использую QtWebKit (QWebView) для отображения текста, и я хочу реализовать в нем функцию поиска через QWebView::findText, Проблема заключается в том, что текст, который должен отображаться, содержит так называемые объединяющие диакритические знаки…
1 ответ

Может ли нормализация NFC Unicode увеличить длину строки?

Если я применю форму C нормализации Unicode к строке, будет ли когда-либо увеличиваться число кодовых точек в строке?
1 ответ

Почему я получаю дополнительные escape-символы, когда вставляю символы юникода в базы данных sqlite3 с помощью Python 2.7?

Я запрашиваю API и получаю блоб json со следующим значением: { ... "Attribute" : "Some W\u00e9irdness", ... } (Конечно, правильное значение - "Some Wéirdness") Я добавляю это значение вместе с некоторыми другими вещами в список полей, которые я хочу…
2 ответа

Нормализация Unicode - имена файлов в текстовых файлах против имен файлов в файловой системе

Просто начинаю работать над одним приложением perl. Нужен совет, как (правильно) разобраться с unicode filenames против filenames in the file content портативный способ. Вот несколько систем, в мире Windows и Unix используется различная кодировка Un…
1 ответ

C# Сопоставить все возможные символы с алфавитом

Я пытаюсь отобразить все возможные буквы на буквы AZ, # для цифр и, возможно, & для других символов. Для этого я использую Normalize(NormalizationForm) метод. Это избавляет от большинства нежелательных персонажей, таких как персонажи с акцентами и т…
1 ответ

Как правильно нормализовать строку с составными символами?

Java Normalize уже позволяет мне брать акцентированные символы и выводить не акцентированные символы. Однако он, похоже, не очень хорошо справляется с составными символами (Œ, Æ). Есть ли способ для Java иметь дело с этими персонажами изначально? Я …
22 янв '18 в 15:32
1 ответ

Какой тип нормализации используется при сравнении строк Swift?

В другом месте я видел, что в сравнениях Swift используется нормализация NFD. Однако, бегая на детской площадке iSwift, я обнаружил, что print("\u{0071}\u{0307}\u{0323}" == "\u{0071}\u{0323}\u{0307}"); дает false несмотря на то, что это пример прям…
3 ответа

Исправлена ​​проблема, связанная с преобразованием Unicode / уязвимость в ColdFusion

Недавно мы обновили наш сканер безопасности, и он сообщает о новой проблеме. Какое исправление рекомендуется? (Мы оказались на ACF9.) (Также, если у вас есть пример эксплойта, ориентированный на CF, я был бы признателен.) Проблемы преобразования Uni…
1 ответ

Как я могу проверить свойство Quick_Check персонажа (скажем, в NFD)?

Стандартное приложение Unicode #15 описывает, как каждый символ в Unicode для каждой из четырех форм нормализации имеет значение "Quick_Check", которое помогает определить, находится ли данная строка в этой форме нормализации. Далее в разделе 9.1 о…
1 ответ

Как визуализировать комбинированные символы Юникода во freetype?

Кажется, я не могу найти какую-либо информацию об этом в документации, функция, которая используется все время - FT_Get_Char_Index(ftFace, i); и она принимает только 1 кодовую точку Юникода. Но как насчет комбинированных символов, которые занимают б…
2 ответа

Нормализация необходима после складывания корпуса

Учитывая нормализованную строку NFC, применяя к этой строке полное сворачивание регистра, могу ли я предположить, что результат также нормализован NFC? Я не понимаю, что стандарт Unicode пытается сказать мне в этой цитате: Нормализация также взаимод…
1 ответ

Поддержка регулярных выражений в Python для акцентов в Unicode NFKD при использовании выражения `\w`

Я пытаюсь использовать модуль регулярных выражений Python 2.7, чтобы соответствовать всем словам в нормализованной строке Юникода NFKD. Я понимаю, что re.UNICODE флаг добавляет поддержку Unicode к \w выражение, но у меня нет никакого успеха с ним. &…
2 ответа

PHP 5.3 не может найти normalizer_normalize()

Я пытаюсь использовать функцию normalizer_normalize(), представленную в PHP 5.3 (говорит документ), однако я не могу ее использовать: $ php -r 'echo normalizer_normalize("tést");' PHP Fatal error: Call to undefined function normalizer_normalize() in…
2 ответа

Как исправить проблемы с символами Unicode в канале iTunes

Я пытаюсь вытащить приложения из Apple App Store, используя их авторизованный плоский канал. Тем не менее, мне трудно справляться с проблемами кодирования. Вот некоторые примеры: Японское приложение под названием ホームページ用和英辞典 отображается как ホーã…
2 ответа

java.text.Normalizer: isNormalized() возвращает false, но Normalize не изменяет строку

Я только начал узнавать о java.text.Normalizer, Это казалось довольно простым. У меня есть одна из "странных" черт, с которыми приходится иметь дело (особенно U + 2013) Я хотел бы преобразовать его в обычный символ тире, поэтому я сделал несколько б…
2 ответа

Как правильно реализовать пароли Unicode?

Добавление поддержки паролей Unicode - важная функция, которую разработчики не должны игнорировать. Тем не менее, добавление поддержки Unicode в паролях является сложной задачей, потому что один и тот же текст может быть закодирован по-разному в Uni…