Вход для программы распознавания речи на основе скрытой марковской модели

Я собираюсь построить программу распознавания речи на основе скрытой модели Маркова. К сожалению, я не знаю, как получить входную звуковую последовательность и, ну, работать с ней. Может кто-нибудь сказать мне, каков общий подход для чтения значений из формата звукового файла (например,.wav, .mp3 и т. Д.) И нарезки саундтрека на куски в C++?

1 ответ

Решение

Общий подход заключается в преобразовании входного звука в последовательность векторов признаков (обычно это MFCC). Этот процесс описан в целом в CMU Sphinx wiki и подробно описан в HTK Book. Вы также можете изучить универсальный инструментарий openSMILE, чтобы увидеть, как это делается в C++.

Другие вопросы по тегам