Описание тега character-properties

NoneCharacter -properties are a set of attributes supplied by the Unicode Standard. For each character contained in it, many properties are specified in relation to processes or algorithms that interpret them, in order to implement the character behavior.
3 ответа

Как пометить весь текст CJK в документе?

У меня есть файл, file1.txt, содержащий текст на английском, китайском, японском и корейском языках. Для использования в ConTeXt мне нужно отметить каждую область текста в файле в соответствии с языком, кроме английского, и вывести новый файл, напри…
07 май '12 в 13:23
1 ответ

Свойства сочетания диакритических знаков

Для объединения диакритических знаков они считаются буквами? Поскольку, насколько я знаю, они могут сочетаться только с другими буквами в правильно сформированном Юникоде. Функция ICU, позволяющая определить, является ли кодовая точка Unicode буквой…
26 ноя '11 в 20:38
2 ответа

Выявление персонажей в игре палача

Так что я должен делать, пользователь вводит букву и программа проверяет, является ли буква частью слова, оттуда я не могу понять, какой код я должен использовать, чтобы одна из букв раскрылась сам вот что у меня так далеко do { System.out.println("…
29 мар '13 в 20:30
6 ответов

Юникод-блок персонажа в питоне

Есть ли способ получить блок Unicode персонажа в Python? Модуль unicodedata, похоже, не имеет того, что мне нужно, и я не смог найти для него внешнюю библиотеку. В принципе, мне нужна та же функциональность, что и Character.UnicodeBlock.of() в Яве.
28 окт '08 в 15:56
3 ответа

Отмывание испорченных данных

Когда я отмываю испорченные данные, проверяя, нет ли в них плохих символов, существуют ли свойства юникода, которые будут фильтровать плохие символы?
31 авг '11 в 17:48
3 ответа

Проверка латинских символов

Есть несколько похожих вопросов, но ни один из них не является одинаковым или имеет ответ, который работает для меня. Мне нужна функция javascript, которая проверяет, содержит ли текстовое поле все допустимые латинские символы, так что не на языке к…
03 апр '13 в 10:59
2 ответа

Сценарии Unicode в регулярных выражениях

Я хочу угадать человеческий язык строки. Я обнаружил, что сценарии Unicode в регулярных выражениях могут помочь. Но я не знаю, что означает название сценария. Насколько я знаю, Han расшифровывается как китайский, а как насчет других?
21 фев '11 в 13:09
3 ответа

Сканирование номеров Юникода в строке с помощью \d

Согласно документации Oniguruma, \d тип символов соответствует: десятичная цифра Unicode: General_Category - Decimal_Number Тем не менее, сканирование для \d в строке со всеми символами Decimal_Number совпадают только латинские цифры 0-9: #encoding:…
09 авг '11 в 15:28
1 ответ

Соответствует только букве Unicode в Python

У меня есть строка, из которой я хочу извлечь 3 группы: '19 janvier 2012' -> '19', 'janvier', '2012' Название месяца может содержать символы не ASCII, поэтому [A-Za-z] у меня не работает >>> import re >>> re.search(ur'(\d{,2}) (…
19 янв '12 в 09:49
2 ответа

Сопоставлять имена с символами Юникода

Может ли кто-нибудь помочь мне сопоставить следующий тип строк "BEREŽALINS", "GŽIBOVSKIS" в C# и JS, я пробовал \A\w+\z (?>\P{M}\p{M}*)+ ^[-a-zA-Z\p{L}']{2,50}$ и так далее... но ничего не работает. Спасибо
23 мар '12 в 13:14
2 ответа

Perl: Как соответствовать FULLWIDTH LATIN SMALL

Я использую listadmin для управления многими списками рассылки на основе почтальона. У меня длинный список тем и адресов, настроенных для блокировки спама. Недавно я получил более умный спам в том смысле, что в нем используются красивые символы Юник…
09 май '13 в 20:17
1 ответ

Perl скрипт останавливается. Ошибка: не удается найти определение свойства Unicode ASCII

Я унаследовал некоторые сценарии Perl. (Я не программист на Perl). Я вижу ошибку "can't find unicode property definition ascii" в нижней строке $value =~ s/[^[:\p{ascii}]]//g Приведет ли эта ошибка к остановке выполнения программы? Так как это после…
19 янв '12 в 12:47
2 ответа

Как исключить символы из шаблона RegEx с кодами свойств категории?

Существует несколько кодов свойств категории (см. Часть "Свойства символов Unicode"), которые можно использовать для Perl-совместимого регулярного выражения (PCRE). Я определил шаблон регулярных выражений (с именем subpattern), который должен соотве…
1 ответ

Заменить управляющие символы Юникода

Мне нужно заменить все специальные управляющие символы в строке в Java. Я хочу спросить API карт Google v3, и Google, похоже, не нравятся эти символы. Пример: http://www.google.com/maps/api/geocode/json?sensor=false&address;=NEW%20YORK%C2%8F Этот UR…
5 ответов

Как мне сопоставить только полностью составленные символы в строке Unicode в Perl?

Я ищу способ сопоставления только полностью составленных символов в строке Unicode. Является [:print:] зависит от локали в любой реализации регулярного выражения, которая включает этот класс символов? Например, будет ли он соответствовать японскому …
15 окт '08 в 03:10
2 ответа

Java: проверка ввода текстового поля, если оно содержит только буквенные символы

Как проверить, если текст содержит только буквенные символы? Я думаю, что мы можем использовать Pattern.matches() но я не знаю регулярного выражения для буквенных символов.
04 авг '13 в 16:16
8 ответов

Python: разбить строку юникода на границы слов

Мне нужно взять строку и сократить ее до 140 символов. В настоящее время я занимаюсь: if len(tweet) > 140: tweet = re.sub(r"\s+", " ", tweet) #normalize space footer = "… " + utils.shorten_urls(post['url']) avail = 140 - len(footer) words = tweet…
4 ответа

Разлитая строка с использованием разделителя Юникод

Мне нужно разделить строку с "-" в качестве разделителя в Java. Пример: "Одноместный номер - приятного пребывания" У меня есть те же данные, поступающие на английском и немецком языках в зависимости от региона. Следовательно, я не могу использовать …
08 мар '12 в 04:25
2 ответа

Regex - справочник по свойствам Юникода и примеры

Я чувствую себя потерянным из-за свойств Regex Unicode, представленных RegexBuddy, я не могу различить любое из свойств Number, и свойство символа Math только кажется, что оно совпадает + но нет -, *, /, ^ например. http://i47.tinypic.com/mbqw6w.png…
14 янв '10 в 06:17
1 ответ

Подстановка: "\p{Cntrl}" - "\P{Print}"

До сих пор я использую эти две замены, прежде чем печатать "$string" на терминал. $string =~ s/\p{Space}/ /g; $string =~ s/\p{Cntrl}//g; Есть ли что-то, что я должен учитывать, когда я заменяю первые две замены на следующие две? $string =~ s/\p{Spac…
05 май '13 в 13:54