Модель с 3 состояниями телефона в Hidden Markov Model (HMM)

Question

Модель с 3 состояниями телефона в Hidden Markov Model (HMM)

Я хочу спросить о значении модели телефона с 3 состояниями в HMM. Этот случай основан на теории HMM в системе распознавания речи. Таким образом, пример основан на акустическом моделировании звуков речи в HMM.

Я получаю этот пример изображения из журнальной статьи: http://www.intechopen.com/source/html/41188/media/image8_w.jpg

Рисунок 1: HMM с 3 состояниями для звука / s /

Итак, мой вопрос:

что это значит под 3 государством?
что на самом деле означает S1, S2 и S3? (Я знаю, что это государство, но что это представляет?)
Как представить / s / sound в этом состоянии HMM?
Почему это 3? что будет, если у нас 4, 5 или больше штатов?
Если звук / s / - это всего лишь простой звук согласного "s/", что представляет собой использование состояния и перехода?

У вас, ребята, есть простое объяснение на примере (графическая аналогия) этой теории?

Спасибо

Ник

2

speech-recognition state-machines hidden-markov-models

Источник

user4487058 23 янв '15 в 14:57

1 ответ

Решение

Другие вопросы по тегам speech-recognition state-machines hidden-markov-models

user432021 23 янв '15 в 15:50 2015-01-23 15:50 · Accepted Answer · 2015-01-23 15:50

что это значит под 3 государством?

Модель, которая описывает телефон S, состоит из трех состояний: S1, S2 и S3.

что на самом деле означает S1, S2 и S3? (Я знаю, что это государство, но что это представляет?)

S1 представляет распределение вероятности вектора признаков в начале телефона S, S2 в середине, S3 в конце. Распределение вероятностей, по сути, является наиболее вероятным значением вектора функции (как звучит эта часть телефона) и вариации (в каких диапазонах она изменяется).

Как представить /s/ sound в этом состоянии HMM?

S звуки представлены целым HMM, а не одним состоянием.

Почему это 3? что будет, если у нас 4, 5 или больше штатов?

При непрерывном распознавании речи на акустику телефона влияют предшествующая фонема и последующая фонема. По этой причине точнее разделить каждый телефон на 3 части - переход с предыдущего телефона в начале, стабильная середина и переход к следующему телефону в конце. Если бы телефон был изолированным и стабильным, 1 состояния было бы достаточно. Можно также использовать 5 состояний для одного телефона в непрерывной речи, но это не сильно повышает точность.

Если звук / s / - это всего лишь простой звук согласного "s/", что представляет собой использование состояния и перехода?

Смотри выше. Переход представляет собой вероятность перехода из одного состояния в другое, по сути, он моделирует длину телефона.