Вход для программы распознавания речи на основе скрытой марковской модели

Question

Вход для программы распознавания речи на основе скрытой марковской модели

Я собираюсь построить программу распознавания речи на основе скрытой модели Маркова. К сожалению, я не знаю, как получить входную звуковую последовательность и, ну, работать с ней. Может кто-нибудь сказать мне, каков общий подход для чтения значений из формата звукового файла (например,.wav, .mp3 и т. Д.) И нарезки саундтрека на куски в C++?

0

c++ speech-recognition hidden-markov-models

Источник

user7180711 20 дек '16 в 02:58

1 ответ

Решение

Другие вопросы по тегам c++ speech-recognition hidden-markov-models

user2641587 24 дек '16 в 21:11 2016-12-24 21:11 · Accepted Answer · 2016-12-24 21:11

Общий подход заключается в преобразовании входного звука в последовательность векторов признаков (обычно это MFCC). Этот процесс описан в целом в CMU Sphinx wiki и подробно описан в HTK Book. Вы также можете изучить универсальный инструментарий openSMILE, чтобы увидеть, как это делается в C++.