Распознавание речи: обнаружение японской каны (согласный + гласный)
Я хотел бы найти некоторый открытый исходный код (хотя я бы согласился на продукт с закрытым исходным кодом), чтобы преобразовать входящий аудиопоток японской каны (т.е. пары согласных + гласных) и распечатать их в значительной степени в режиме реального времени.
Однако я хочу использовать эти базовые звуковые блоки для своих собственных целей, поэтому я не хочу никакой высокоуровневой обработки, которая пытается извлечь подлинные японские слова. Я просто хочу получить сырой Кана.
Кто-нибудь знает о такой технологии?
Сегодня я только что узнал, что японский "алфавит" - это, по сути, кана10x5. 10 столбцов (пустые + 9 согласных) и 5 строк (гласные)
и каждый элемент называется "кана", а язык состоит из последовательностей этих кана; это основные строительные блоки.
Это, безусловно, должно оказать большое влияние на алгоритмы распознавания речи.
Что касается западных языков, то все коммерческие механизмы распознавания речи, которые мне известны, происходят от CMUSphinx, который работает по триграммной модели: он представляет каждое движение между тремя фонемами с уникальным вектором MFCC и вычисляет наиболее вероятную последовательность (и) триграмм. для высказывания (из которого он может тривиально вывести фонемы, а затем пробежаться по своему словарю WORD-триплетов, чтобы выяснить наиболее вероятное предложение).
Но для такого языка, как японский, я бы предположил, что это может быть не самый эффективный алгоритм.
Вместо этого может иметь смысл попытаться поймать каждую отдельную кана или кана-пару.
... который будет 2 грамма или 4 грамма. но не 3!
Там что-нибудь есть? Или они просто используют те же двигатели, что и западный мир?
1 ответ
У Юлиуса есть акустические и языковые модели для японского языка. Попробуйте и посмотрите, хорошо ли это для вашего приложения.
Я не знаю, обучали ли они языковые модели, но Джулиус может поддерживать n-грамм любого порядка в обратном порядке. В дальнейшем, это поддержка биграмм. Обычно в обратном проходе используют 4 грамма. Оба LM собраны вместе с помощью инструмента Julius.
Luis ASR Labs