Разбор китайских символов для возможного произношения / индекса CJK?

Question

Разбор китайских символов для возможного произношения / индекса CJK?

Я делаю организующую программу (на C#) и пытаюсь создать функцию индексации для индексации CJK (и, по возможности, вьетнамского).

Если есть китайская строка, я хочу проанализировать ее по возможному индексу в китайском пиньинь / чжуинь, штрихах, корейском хангуле, японском хирагане или вьетнамском произношении.

Например, возьмите китайский иероглиф 讀 на странице викисловаря это может быть сделано для:

Китайский пиньинь dúИндекс принадлежит D
Китайский жуйинь ㄉㄨˊИндекс принадлежит ㄉ
японский язык よむИндекс принадлежит よ
Корейский индекс 독
вьетнамский đọcИндекс принадлежит Đ
у него 22 удара.

Я не знаю, что у китайского иероглифа не могло быть однозначного сопоставления, во время аренды я мог бы выбрать возможное / первое сопоставление.

Рекомендуется ли какая-либо существующая библиотека или основа картирования?

0

nlp cjk

Источник

user3576052 03 окт '18 в 03:16

0 ответов

Другие вопросы по тегам nlp cjk