Модель с 3 состояниями телефона в Hidden Markov Model (HMM)

Я хочу спросить о значении модели телефона с 3 состояниями в HMM. Этот случай основан на теории HMM в системе распознавания речи. Таким образом, пример основан на акустическом моделировании звуков речи в HMM.

Я получаю этот пример изображения из журнальной статьи: http://www.intechopen.com/source/html/41188/media/image8_w.jpg

Рисунок 1: HMM с 3 состояниями для звука / s /

Итак, мой вопрос:

  1. что это значит под 3 государством?
  2. что на самом деле означает S1, S2 и S3? (Я знаю, что это государство, но что это представляет?)
  3. Как представить / s / sound в этом состоянии HMM?
  4. Почему это 3? что будет, если у нас 4, 5 или больше штатов?
  5. Если звук / s / - это всего лишь простой звук согласного "s/", что представляет собой использование состояния и перехода?

У вас, ребята, есть простое объяснение на примере (графическая аналогия) этой теории?

Спасибо

Ник

1 ответ

Решение

что это значит под 3 государством?

Модель, которая описывает телефон S, состоит из трех состояний: S1, S2 и S3.

что на самом деле означает S1, S2 и S3? (Я знаю, что это государство, но что это представляет?)

S1 представляет распределение вероятности вектора признаков в начале телефона S, S2 в середине, S3 в конце. Распределение вероятностей, по сути, является наиболее вероятным значением вектора функции (как звучит эта часть телефона) и вариации (в каких диапазонах она изменяется).

Как представить /s/ sound в этом состоянии HMM?

S звуки представлены целым HMM, а не одним состоянием.

Почему это 3? что будет, если у нас 4, 5 или больше штатов?

При непрерывном распознавании речи на акустику телефона влияют предшествующая фонема и последующая фонема. По этой причине точнее разделить каждый телефон на 3 части - переход с предыдущего телефона в начале, стабильная середина и переход к следующему телефону в конце. Если бы телефон был изолированным и стабильным, 1 состояния было бы достаточно. Можно также использовать 5 состояний для одного телефона в непрерывной речи, но это не сильно повышает точность.

Если звук / s / - это всего лишь простой звук согласного "s/", что представляет собой использование состояния и перехода?

Смотри выше. Переход представляет собой вероятность перехода из одного состояния в другое, по сути, он моделирует длину телефона.

Другие вопросы по тегам