Количество символов в индийском языке (хинди, тамильский поддерживают весь индийский язык)
Есть ли какой-нибудь оптимальный способ реализовать подсчет символов для индийского языка, такого как хинди тамильский. Например, если мы берем слово "мама" на английском языке, это слово из 6 букв. Но если вы введете одно и то же слово (माता) на хинди, это будет двухбуквенное слово (मा + ता), но длина символа станет 4. Есть ли способ подсчитать количество реальных символов?
माता -> actual -> 4, Expected-> 2
जगदीश -> actual ->5 , Expected -> 4
क्रमश -> actual -> 5, expected -> 3
Любая помощь по этому вопросу будет принята с благодарностью...
1 ответ
Я знаю, что ответ через 5 лет бесполезен. Но может помочь немногим другим, кто ищет то же самое.
У меня тоже такое же требование. Судя по тому, что я искал, для этого не существует готового пакета. видите, проблема с индийскими языками в том, что слово माता рассматривается как «ма» + «аа» (матра) + «та» + «аа» (матра), поэтому оно становится 4. чтобы избежать этого, вам придется жестко запрограммировать диапазон символов в Юникоде, которые соответствуют только полным буквам, и игнорируют символы.
Посмотрите на это:[https://en.wikipedia.org/wiki/Devanagari_(Unicode_block)][1]
В таблице (от U+090x4 до U+093x9) + (от U+095x8 до U+095xF) станут обычными символами, а остальные — матрами, которые следует игнорировать, поэтому на используемом вами языке программирования вам следует использовать расширение .filter() или аналогичная операция для определения количества символов.