Используйте CMU sphinx4 для расшифровки нецифровых данных

Question

Используйте CMU sphinx4 для расшифровки нецифровых данных

Недавно я работал над использованием CMU sphinx4 для транскрипции и, в конечном итоге, принудительного выравнивания, то есть выравнивания аудио с его транскриптом.

Я нашел проект под названием AutoCap, который в основном сделал то, что я хотел разработать. Итак, я установил его, но он не работал. Я попытался настроить это, но все, что я получил, было неправильными метками времени.

Итак, я подумал об использовании sphinx4 и сам попробовал. Я успешно расшифровал файл wav с помощью файла Transcriber.jar в Sphinx. Но я не мог заставить его работать на аудио с нецифровыми данными. На странице readme говорится, что "люди, которые хотят транскрибировать нецифровые данные, должны изменить файл config.xml, чтобы использовать для этого правильную грамматику, языковую модель и лингвиста".

Итак, кто-нибудь может мне помочь в одном из следующих:

AutoCap
Использование Sphinx4 для расшифровки нецифровых данных
Принудительное выравнивание

Благодарю.

4

speech-recognition cmusphinx sphinx4 transcription

Источник

user889820 11 авг '11 в 12:03

2 ответа

Другие вопросы по тегам speech-recognition cmusphinx sphinx4 transcription

user432021 13 авг '11 в 14:37 2011-08-13 14:37 · Answer 1 · 2011-08-13 14:37

Существует конкретный проект, посвященный выравниванию речи к тексту. Это не тривиальная задача. Разработка идет в отдельной ветке sphinx4. Вы можете найти некоторые детали здесь

http://cmusphinx.sourceforge.net/?s=long+audio+alignment

Если у вас есть какие-либо вопросы по этому проекту, вы можете задать их на форуме sphinx4

http://sourceforge.net/projects/cmusphinx/forums/forum/382337

user902423 03 сен '11 в 09:16 2011-09-03 09:16 · Answer 2 · 2011-09-03 09:16

В настоящее время я работаю над той же проблемой, то есть расшифровываю нецифровые данные. Я кратко изучил документацию по руководству для программистов sphinx 4 и использовал языковые модели, акустические модели и грамматику JSGF, как это было предложено. однако полученный ответ был не на должном уровне. Я считаю, что простого изменения параметров или изменений только в файле config.xml будет недостаточно. Я думаю, что нам понадобится собственный алгоритм, чтобы идти в ногу со сфинксом 4, который может улучшить распознавание речи. Со своей стороны... я использовал lextreeliguist, JSGFGrammar и модель языка триграмм. Но ответ был не велик. возможно, потому что аудио вход был не совсем американский английский. Буду работать над этим немного больше.. и дам вам знать мои результаты