Как обучить HMM с набором аудиосоединений для распознавания речи?
Я читал некоторые журналы и статьи о HMM и MFCC, но я все еще не понимал, как это работает шаг за шагом с моим набором данных (аудио набора данных предложений).
Мой набор данных Пример (аудио форма):
- Привет, с добрым утром
- удачи тебе на экзамене
- и т. д. около 343 аудиоданных и 20 динамиков (6800 аудиоданных)
Все я знаю:
- Мои наборы данных предложений используются для получения вероятности перехода
- Хм говорится это фонемы
- 39 функций MFCC используются для обучения моделей HMM
Мои вопросы:
- Нужно ли мне разрезать свои предложения на слова или просто использовать предложения для обучающих моделей HMM?
- Нужен ли мне набор данных фонем для поезда? если да, нужно ли тренировать его, используя HMM? если нет, то как моя программа распознает фонемы для ввода предсказания HMM?
- Какие шаги я должен сделать в первую очередь?
Примечание: я работаю с python, и я использовал hmmlearn и python_speech_features в качестве моей библиотеки.
1 ответ
- Нужно ли мне разрезать свои предложения на слова или просто использовать предложения для обучающих моделей HMM?
Теоретически вам просто нужны предложения и фонемы. Но наличие отдельных слов может быть полезно для вашей модели (это увеличивает размер ваших тренировочных данных)
- Нужен ли мне набор данных фонем для поезда? если да, нужно ли тренировать его, используя HMM? если нет, то как моя программа распознает фонемы для ввода предсказания HMM?
Вам нужны фонемы, иначе вашей модели будет слишком сложно найти правильную сегментацию фонем, если у нее нет примера изолированных фонем. Сначала вы должны обучить свои состояния HMM на изолированных фонемах, а затем добавить остальные данные. Если у вас достаточно данных, ваша модель может быть в состоянии изучать без отдельных примеров фонем, но я бы не стал этого делать.
- Какие шаги я должен сделать в первую очередь?
Создайте свои примеры фонем и используйте их для обучения простой модели HMM, в которой вы не моделируете переход между фонемами. Как только в ваших скрытых состояниях появится некоторая информация о фонемах, вы можете продолжить обучение по отдельным словам и предложениям.