Модель с 3 состояниями телефона в Hidden Markov Model (HMM)
Я хочу спросить о значении модели телефона с 3 состояниями в HMM. Этот случай основан на теории HMM в системе распознавания речи. Таким образом, пример основан на акустическом моделировании звуков речи в HMM.
Я получаю этот пример изображения из журнальной статьи: http://www.intechopen.com/source/html/41188/media/image8_w.jpg
Рисунок 1: HMM с 3 состояниями для звука / s /
Итак, мой вопрос:
- что это значит под 3 государством?
- что на самом деле означает S1, S2 и S3? (Я знаю, что это государство, но что это представляет?)
- Как представить / s / sound в этом состоянии HMM?
- Почему это 3? что будет, если у нас 4, 5 или больше штатов?
- Если звук / s / - это всего лишь простой звук согласного "s/", что представляет собой использование состояния и перехода?
У вас, ребята, есть простое объяснение на примере (графическая аналогия) этой теории?
Спасибо
Ник
1 ответ
что это значит под 3 государством?
Модель, которая описывает телефон S, состоит из трех состояний: S1, S2 и S3.
что на самом деле означает S1, S2 и S3? (Я знаю, что это государство, но что это представляет?)
S1 представляет распределение вероятности вектора признаков в начале телефона S, S2 в середине, S3 в конце. Распределение вероятностей, по сути, является наиболее вероятным значением вектора функции (как звучит эта часть телефона) и вариации (в каких диапазонах она изменяется).
Как представить /s/ sound в этом состоянии HMM?
S звуки представлены целым HMM, а не одним состоянием.
Почему это 3? что будет, если у нас 4, 5 или больше штатов?
При непрерывном распознавании речи на акустику телефона влияют предшествующая фонема и последующая фонема. По этой причине точнее разделить каждый телефон на 3 части - переход с предыдущего телефона в начале, стабильная середина и переход к следующему телефону в конце. Если бы телефон был изолированным и стабильным, 1 состояния было бы достаточно. Можно также использовать 5 состояний для одного телефона в непрерывной речи, но это не сильно повышает точность.
Если звук / s / - это всего лишь простой звук согласного "s/", что представляет собой использование состояния и перехода?
Смотри выше. Переход представляет собой вероятность перехода из одного состояния в другое, по сути, он моделирует длину телефона.