Скрытая марковская модель: возможно ли, что точность уменьшается с увеличением числа состояний?
Я построил пару скрытых марковских моделей, используя алгоритм Баума-Уэлча для растущего числа состояний. Я заметил, что после 8 штатов, оценка валидации снижается для более чем 8 штатов. Поэтому я задавался вопросом, возможно ли, что точность скрытой модели Маркова может уменьшаться с увеличением числа состояний из-за некоторого переоснащения?
Заранее спасибо!
1 ответ
Для ясности я предлагаю здесь очень упрощенную иллюстрацию этого явления.
Скажем, вы тренируете свой HMM с последовательностью данных (ABAB). Допустим, вы используете HMM с двумя состояниями. Естественно, состояние 1 будет оптимизировано для представления A, а состояние 2 будет представлять B (или наоборот). Затем у вас есть новая последовательность (ABAB). Вы хотите знать вероятность того, что эта последовательность имеет отношение к вашему HMM. Алгоритм Витерби обнаружит, что наиболее вероятной последовательностью состояний является (1-2-1-2), а алгоритм Баума-Уэлча придаст этой последовательности высокую вероятность как последовательности состояний и "значений" новой последовательности (Если вы работаете с непрерывными данными), четко соответствует вашей последовательности тренировок.
Скажем теперь, что вы тренируете HMM с 3 состояниями с той же тренировочной последовательностью (ABAB). Первоначальная кластеризация ваших данных, скорее всего, либо назначит 2 первых состояния HMM для представления символа A, а последнее - для символа B (или еще раз противоположного).
Поэтому теперь последовательность запросов (ABAB) может быть представлена в виде последовательности состояний (1-3-1-3) или (2-3-2-3) или (1-3-2-3) или (2-3-1-3)! Это означает, что для этого HMM с тремя состояниями две идентичные последовательности (ABAB) могут иметь низкое сходство для HMM. Вот почему для любого HMM и любого набора данных, выходящего за пределы определенного числа состояний, производительность будет снижаться.
Вы можете оценить оптимальное число состояний, используя такие критерии, как байесовский информационный критерий, информационный критерий Акайке, критерий минимальной длины сообщения или, если вы просто хотите получить идею размытия, кластеризацию с k-средним в сочетании с процентной дисперсией объяснил. Три первых критерия интересны тем, что включают штрафной член, который соответствует количеству параметров модели.
Надеюсь, поможет!:)