Описание тега grapheme
Графема - это единица письма, обычно меньшая, чем слово. В идеографическом языке одна графема может нести значительный смысл, но многие языки используют только меньший алфавит, где несколько разных графем расположены по-разному для построения единиц значения.
4
ответа
Как правильно получить графему?
Почему это печатает U и не Ü? #!/usr/bin/env perl use warnings; use 5.014; use utf8; binmode STDOUT, ':utf8'; use charnames qw(:full); my $string = "\N{LATIN CAPITAL LETTER U}\N{COMBINING DIAERESIS}"; while ( $string =~ /(\X)/g ) { say $1; } # Outpu…
24 фев '12 в 10:10
2
ответа
Учитывая список кодовых точек Unicode, как можно разделить их на список символов Unicode?
Я пишу лексический анализатор для текста Unicode. Многие символы Юникода требуют нескольких кодовых точек (даже после канонической композиции). Например, tuple(map(ord, unicodedata.normalize('NFC', 'ā́'))) оценивает (257, 769), Как я могу узнать, где…
10 мар '16 в 22:15
1
ответ
Регулярное выражение для соответствия инициалам имени - PCRE
У меня есть регулярное выражение, чтобы получить инициалы имени, как показано ниже: /\b\p{L}\./gu он отлично работает с английским и другими языками, пока не появятся графемы и не появятся комбинированные символы. подобно क на хинди и ಕ в каннаде по…
14 янв '19 в 09:28
1
ответ
StringInfo и TextElementEnumerator в C# не могут правильно распознавать графемы
В C# StringInfo а также TextElementEnumerator классы предоставляют методы и свойства для текстовых элементов. И здесь мы можем найти определение текстового элемента. .NET Framework определяет текстовый элемент как единицу текста, которая отображаетс…
20 сен '18 в 11:00
1
ответ
Как функция длины SQL обрабатывает графемы Unicode?
Рассмотрим следующий сценарий, где у меня есть строка É определяется \U00000045\U00000301, 1) https://www.fileformat.info/info/unicode/char/0045/index.htm 2) https://www.fileformat.info/info/unicode/char/0301/index.htm Будет ли стол ограничен varcha…
13 янв '18 в 01:50
3
ответа
В чем разница между "объединением символов" и "расширителями графемы" в Unicode?
В чем разница между "объединением символов" и "расширителями графемы" в Unicode? Насколько я могу судить, они делают одно и то же - хотя набор расширителей графемы больше, чем набор комбинируемых символов. Я явно что-то здесь упускаю. Почему различи…
12 фев '14 в 08:45
5
ответов
Получить количество символов графемы в строках JavaScript?
Я пытаюсь получить длину строки javascript в видимых пользователем графемах, то есть игнорируя объединение символов (и суррогатных пар?). Возможно ли это, и если да, то как мне это сделать? Мы используем инструментарий dojo в нашем проекте, но любое…
23 апр '12 в 20:37
2
ответа
Как отобразить арабские буквы в фонемы в Python?
Я хочу сделать простой скрипт на Python, который будет сопоставлять каждую арабскую букву со звуковыми символами фонемы. У меня есть файл, содержащий несколько слов, которые скрипт будет читать, чтобы преобразовать их в фонемы, и у меня есть следующ…
30 дек '15 в 22:43
1
ответ
Является ли множество различных графем бесконечным?
Есть ли ограничение на количество различных графем, которые могут быть представлены в кодировке Unicode, такой как UTF-8? Например, ограничивает ли стандарт Unicode количество последовательных символов объединения?
28 авг '13 в 07:13
1
ответ
Конвертировать похожие звуковые части слова
У меня проблемы с поиском правильных терминов, чтобы решить приведенную ниже проблему; Я уверен, что это сделано, я просто не могу найти правильные термины, чтобы выразить проблему! Я в основном пытаюсь создать классификатор, который будет принимать…
12 авг '14 в 21:01
1
ответ
Почему Свифт считает этот кластер графем двумя персонажами вместо одного?
Вообще, Свифт действительно умел считать графемные кластеры одним персонажем. Например, если я хочу сделать ливанский флаг, я могу объединить два символа Юникода U+1F1F1 РЕГИОНАЛЬНЫЙ ИНДИКАТОР СИМВОЛ ПИСЬМО L U + 1F1E7 РЕГИОНАЛЬНЫЙ ИНДИКАТОР СИМВОЛ …
06 мар '16 в 05:46
4
ответа
Разделение юникод-сущностей по графемам
"d̪".chars.to_a дает мне ["d"," ̪"] Как мне заставить Ruby разделить его по графемам? ["d̪"]
22 окт '12 в 18:55
1
ответ
Поиск графемы в Java
Поэтому я работаю над проектом, который включает поиск слова на разных языках. Я могу легко получить локаль языка, но я не знаю, как искать слово на другом языке. Таким образом, текст может быть на китайском языке, а слово для поиска может быть на а…
21 мар '17 в 19:27
2
ответа
Поддержка графем в регулярных выражениях Python
Я использую удивительный модуль регулярных выражений, пытаясь его \X поддержка графемы. Во-первых, я пытаюсь с простой старой . >>> print regex.match('.', 'Ä').group(0) >>> print regex.match('..', 'Ä').group(0) Ä Все прошло как ожи…
31 янв '15 в 07:04
0
ответов
Получить unicode графемы как неразделенный элемент с python2.7
Любая идея, если это возможно с помощью регулярных выражений (Python 2.7), чтобы получить uniq символы, не разделенные на суррогатные пары для графических Unicode? Согласно этому примеру это возможно с python 3.x. Посмотреть здесь: >>> impo…
17 авг '18 в 15:06
1
ответ
C++ Unicode: байты, кодовые точки и графемы
Итак, я создаю язык сценариев, и одна из моих целей - это удобные строковые операции. Я попробовал некоторые идеи в C++. Строка как последовательность байтов и свободных функций, которые возвращают векторы, содержащие индексы кодовых точек. Класс-об…
17 янв '17 в 16:26
1
ответ
Swift String.Index против преобразования строки в массив
В быстром документе они говорят, что используют String.Index для индексации строк, поскольку разные символы могут занимать разное количество памяти. Но я видел много людей, превращающих строку в массив var a = Array(s) поэтому они могут индексироват…
18 янв '18 в 16:07
3
ответа
Как считать графемные кластеры или "воспринимаемые" символы эмодзи в Java
Я рассчитываю подсчитать количество воспринимаемых символов смайликов в предоставленной строке Java. В настоящее время я использую библиотеку emoji4j, но она не работает для таких графических кластеров: призвание EmojiUtil.getLength("") возвращае…
30 ноя '16 в 01:34
1
ответ
Как определить, с какой буквы алфавита начинается слово в Objective-C?
По заданной строке я пытаюсь определить, к какой букве алфавита она принадлежит. Например, "яблоко" входит в раздел "А". "Банан" переходит в раздел "Б". Я использую это, чтобы определить раздел: NSRange range = [string rangeOfString:letter options:N…
07 сен '14 в 22:08
1
ответ
Как сформулировать английские графемы из строки в Matlab, уменьшив сложность времени?
Я работал над преобразованием графемы в фонемы в Matlab и пытался создать более обобщенный код, чтобы сначала разбить слово на определенные согласные, орграфы и связанные с ними гласные и сегментировать каждую введенную строку (слово) в форму графем…
26 мар '16 в 19:12