Количество символов в индийском языке (хинди, тамильский поддерживают весь индийский язык)

Есть ли какой-нибудь оптимальный способ реализовать подсчет символов для индийского языка, такого как хинди тамильский. Например, если мы берем слово "мама" на английском языке, это слово из 6 букв. Но если вы введете одно и то же слово (माता) на хинди, это будет двухбуквенное слово (मा + ता), но длина символа станет 4. Есть ли способ подсчитать количество реальных символов?

माता -> actual -> 4, Expected-> 2
जगदीश  -> actual ->5 , Expected -> 4
क्रमश  -> actual -> 5, expected -> 3

Любая помощь по этому вопросу будет принята с благодарностью...

1 ответ

Я знаю, что ответ через 5 лет бесполезен. Но может помочь немногим другим, кто ищет то же самое.

У меня тоже такое же требование. Судя по тому, что я искал, для этого не существует готового пакета. видите, проблема с индийскими языками в том, что слово माता рассматривается как «ма» + «аа» (матра) + «та» + «аа» (матра), поэтому оно становится 4. чтобы избежать этого, вам придется жестко запрограммировать диапазон символов в Юникоде, которые соответствуют только полным буквам, и игнорируют символы.

Посмотрите на это:[https://en.wikipedia.org/wiki/Devanagari_(Unicode_block)][1]

В таблице (от U+090x4 до U+093x9) + (от U+095x8 до U+095xF) станут обычными символами, а остальные — матрами, которые следует игнорировать, поэтому на используемом вами языке программирования вам следует использовать расширение .filter() или аналогичная операция для определения количества символов.

Другие вопросы по тегам