Используйте CMU sphinx4 для расшифровки нецифровых данных

Недавно я работал над использованием CMU sphinx4 для транскрипции и, в конечном итоге, принудительного выравнивания, то есть выравнивания аудио с его транскриптом.

Я нашел проект под названием AutoCap, который в основном сделал то, что я хотел разработать. Итак, я установил его, но он не работал. Я попытался настроить это, но все, что я получил, было неправильными метками времени.

Итак, я подумал об использовании sphinx4 и сам попробовал. Я успешно расшифровал файл wav с помощью файла Transcriber.jar в Sphinx. Но я не мог заставить его работать на аудио с нецифровыми данными. На странице readme говорится, что "люди, которые хотят транскрибировать нецифровые данные, должны изменить файл config.xml, чтобы использовать для этого правильную грамматику, языковую модель и лингвиста".

Итак, кто-нибудь может мне помочь в одном из следующих:

  • AutoCap
  • Использование Sphinx4 для расшифровки нецифровых данных
  • Принудительное выравнивание

Благодарю.

2 ответа

Существует конкретный проект, посвященный выравниванию речи к тексту. Это не тривиальная задача. Разработка идет в отдельной ветке sphinx4. Вы можете найти некоторые детали здесь

http://cmusphinx.sourceforge.net/?s=long+audio+alignment

Если у вас есть какие-либо вопросы по этому проекту, вы можете задать их на форуме sphinx4

http://sourceforge.net/projects/cmusphinx/forums/forum/382337

В настоящее время я работаю над той же проблемой, то есть расшифровываю нецифровые данные. Я кратко изучил документацию по руководству для программистов sphinx 4 и использовал языковые модели, акустические модели и грамматику JSGF, как это было предложено. однако полученный ответ был не на должном уровне. Я считаю, что простого изменения параметров или изменений только в файле config.xml будет недостаточно. Я думаю, что нам понадобится собственный алгоритм, чтобы идти в ногу со сфинксом 4, который может улучшить распознавание речи. Со своей стороны... я использовал lextreeliguist, JSGFGrammar и модель языка триграмм. Но ответ был не велик. возможно, потому что аудио вход был не совсем американский английский. Буду работать над этим немного больше.. и дам вам знать мои результаты

Другие вопросы по тегам