Описание тега grapheme

Графема - это единица письма, обычно меньшая, чем слово. В идеографическом языке одна графема может нести значительный смысл, но многие языки используют только меньший алфавит, где несколько разных графем расположены по-разному для построения единиц значения.
4 ответа

Как правильно получить графему?

Почему это печатает U и не Ü? #!/usr/bin/env perl use warnings; use 5.014; use utf8; binmode STDOUT, ':utf8'; use charnames qw(:full); my $string = "\N{LATIN CAPITAL LETTER U}\N{COMBINING DIAERESIS}"; while ( $string =~ /(\X)/g ) { say $1; } # Outpu…
24 фев '12 в 10:10
2 ответа

Учитывая список кодовых точек Unicode, как можно разделить их на список символов Unicode?

Я пишу лексический анализатор для текста Unicode. Многие символы Юникода требуют нескольких кодовых точек (даже после канонической композиции). Например, tuple(map(ord, unicodedata.normalize('NFC', 'ā́'))) оценивает (257, 769), Как я могу узнать, где…
10 мар '16 в 22:15
1 ответ

Регулярное выражение для соответствия инициалам имени - PCRE

У меня есть регулярное выражение, чтобы получить инициалы имени, как показано ниже: /\b\p{L}\./gu он отлично работает с английским и другими языками, пока не появятся графемы и не появятся комбинированные символы. подобно क на хинди и ಕ в каннаде по…
14 янв '19 в 09:28
1 ответ

StringInfo и TextElementEnumerator в C# не могут правильно распознавать графемы

В C# StringInfo а также TextElementEnumerator классы предоставляют методы и свойства для текстовых элементов. И здесь мы можем найти определение текстового элемента. .NET Framework определяет текстовый элемент как единицу текста, которая отображаетс…
20 сен '18 в 11:00
1 ответ

Как функция длины SQL обрабатывает графемы Unicode?

Рассмотрим следующий сценарий, где у меня есть строка É определяется \U00000045\U00000301, 1) https://www.fileformat.info/info/unicode/char/0045/index.htm 2) https://www.fileformat.info/info/unicode/char/0301/index.htm Будет ли стол ограничен varcha…
13 янв '18 в 01:50
3 ответа

В чем разница между "объединением символов" и "расширителями графемы" в Unicode?

В чем разница между "объединением символов" и "расширителями графемы" в Unicode? Насколько я могу судить, они делают одно и то же - хотя набор расширителей графемы больше, чем набор комбинируемых символов. Я явно что-то здесь упускаю. Почему различи…
12 фев '14 в 08:45
5 ответов

Получить количество символов графемы в строках JavaScript?

Я пытаюсь получить длину строки javascript в видимых пользователем графемах, то есть игнорируя объединение символов (и суррогатных пар?). Возможно ли это, и если да, то как мне это сделать? Мы используем инструментарий dojo в нашем проекте, но любое…
23 апр '12 в 20:37
2 ответа

Как отобразить арабские буквы в фонемы в Python?

Я хочу сделать простой скрипт на Python, который будет сопоставлять каждую арабскую букву со звуковыми символами фонемы. У меня есть файл, содержащий несколько слов, которые скрипт будет читать, чтобы преобразовать их в фонемы, и у меня есть следующ…
30 дек '15 в 22:43
1 ответ

Является ли множество различных графем бесконечным?

Есть ли ограничение на количество различных графем, которые могут быть представлены в кодировке Unicode, такой как UTF-8? Например, ограничивает ли стандарт Unicode количество последовательных символов объединения?
28 авг '13 в 07:13
1 ответ

Конвертировать похожие звуковые части слова

У меня проблемы с поиском правильных терминов, чтобы решить приведенную ниже проблему; Я уверен, что это сделано, я просто не могу найти правильные термины, чтобы выразить проблему! Я в основном пытаюсь создать классификатор, который будет принимать…
12 авг '14 в 21:01
1 ответ

Почему Свифт считает этот кластер графем двумя персонажами вместо одного?

Вообще, Свифт действительно умел считать графемные кластеры одним персонажем. Например, если я хочу сделать ливанский флаг, я могу объединить два символа Юникода U+1F1F1 РЕГИОНАЛЬНЫЙ ИНДИКАТОР СИМВОЛ ПИСЬМО L U + 1F1E7 РЕГИОНАЛЬНЫЙ ИНДИКАТОР СИМВОЛ …
06 мар '16 в 05:46
4 ответа

Разделение юникод-сущностей по графемам

"d̪".chars.to_a дает мне ["d"," ̪"] Как мне заставить Ruby разделить его по графемам? ["d̪"]
1 ответ

Поиск графемы в Java

Поэтому я работаю над проектом, который включает поиск слова на разных языках. Я могу легко получить локаль языка, но я не знаю, как искать слово на другом языке. Таким образом, текст может быть на китайском языке, а слово для поиска может быть на а…
21 мар '17 в 19:27
2 ответа

Поддержка графем в регулярных выражениях Python

Я использую удивительный модуль регулярных выражений, пытаясь его \X поддержка графемы. Во-первых, я пытаюсь с простой старой . >>> print regex.match('.', 'Ä').group(0) >>> print regex.match('..', 'Ä').group(0) Ä Все прошло как ожи…
31 янв '15 в 07:04
0 ответов

Получить unicode графемы как неразделенный элемент с python2.7

Любая идея, если это возможно с помощью регулярных выражений (Python 2.7), чтобы получить uniq символы, не разделенные на суррогатные пары для графических Unicode? Согласно этому примеру это возможно с python 3.x. Посмотреть здесь: >>> impo…
1 ответ

C++ Unicode: байты, кодовые точки и графемы

Итак, я создаю язык сценариев, и одна из моих целей - это удобные строковые операции. Я попробовал некоторые идеи в C++. Строка как последовательность байтов и свободных функций, которые возвращают векторы, содержащие индексы кодовых точек. Класс-об…
17 янв '17 в 16:26
1 ответ

Swift String.Index против преобразования строки в массив

В быстром документе они говорят, что используют String.Index для индексации строк, поскольку разные символы могут занимать разное количество памяти. Но я видел много людей, превращающих строку в массив var a = Array(s) поэтому они могут индексироват…
18 янв '18 в 16:07
3 ответа

Как считать графемные кластеры или "воспринимаемые" символы эмодзи в Java

Я рассчитываю подсчитать количество воспринимаемых символов смайликов в предоставленной строке Java. В настоящее время я использую библиотеку emoji4j, но она не работает для таких графических кластеров: призвание EmojiUtil.getLength("‍‍‍") возвращае…
30 ноя '16 в 01:34
1 ответ

Как определить, с какой буквы алфавита начинается слово в Objective-C?

По заданной строке я пытаюсь определить, к какой букве алфавита она принадлежит. Например, "яблоко" входит в раздел "А". "Банан" переходит в раздел "Б". Я использую это, чтобы определить раздел: NSRange range = [string rangeOfString:letter options:N…
07 сен '14 в 22:08
1 ответ

Как сформулировать английские графемы из строки в Matlab, уменьшив сложность времени?

Я работал над преобразованием графемы в фонемы в Matlab и пытался создать более обобщенный код, чтобы сначала разбить слово на определенные согласные, орграфы и связанные с ними гласные и сегментировать каждую введенную строку (слово) в форму графем…
26 мар '16 в 19:12