icu4j транслитерация с английского на урду

Question

icu4j транслитерация с английского на урду

Я пытаюсь транслитерировать римские английские слова на слова урду. так же, как этот инструмент сайта. Я использую транслитератор icu4j. Выходная транслитерация немного неожиданна, например

вход: "намаз"
вывод: "نَمَز"
ожидаемый результат: "نماز"
Английский перевод: "Молитва"

Ниже мой идентификатор, чтобы получить экземпляр.

String id = "Eng-ur; NFD;";

Кто-нибудь знает, где проблема в моем идентификаторе String...???

2

java icu transliteration icu4j

Источник

user5052133 15 ноя '16 в 09:19

2 ответа

Другие вопросы по тегам java icu transliteration icu4j

user7205734 24 ноя '16 в 14:23 2016-11-24 14:23 · Answer 1 · 2016-11-24 14:23

Структура правил ICU не очень хорошо работает с исходными языками с нерегулярным произношением. К сожалению, английский язык особенно трудно произносить.

Транслитерация означает эмуляцию произношения исходного языка на целевом языке. Он состоит из двух частей: (а) Преобразование ввода в промежуточное представление, которое указывает на произношение; (б) преобразование произношения в окончательный результат.

С английским на урду основанная на правилах структура ICU никогда не даст хороших результатов для (а), но, скорее всего, это будет хорошая система для выполнения (б). Я бы порекомендовал пропустить ваши английские строки через систему преобразования текста в речь или, по крайней мере, посмотреть ввод в очень большом словаре произношения. Это даст вам произношение в международном фонетическом алфавите. Как только у вас есть произношение, ICU должен работать достаточно хорошо, чтобы генерировать урду.

Сейчас в ICU еще нет правил для преобразования международного фонетического алфавита в урду. Как разработчик правил транслитерации Unicode, я думаю, что это должно быть очень легко реализовать; Я с удовольствием сделаю это, когда найду время (но каждый может присылать патчи!) Пожалуйста, отправьте сообщение об ошибке по адресу http://unicode.org/cldr/trac/newticket если вы хотите пойти по этому пути.

user185799 21 ноя '16 в 19:34 2016-11-21 19:34 · Answer 2 · 2016-11-21 19:34

Я не думаю, что есть проблема с вашей строкой идентификатора как таковой. (Наверное en-ur хотя достаточно - зачем запрашивать NFD?) Замечу, что строка nmạz транслитерует точно на نماز. Возможно, есть место для улучшения правил транслитерации?

2

Источник

user185799 21 ноя '16 в 19:34