Стоимость замены траминера

У меня есть логическая проблема с матрицей переходных расходов. Я работаю над различием последовательностей, используя пакет R Traminer.

Я пытаюсь дать вам простой пример (очень простой, но я надеюсь, что полезно объяснить мою проблему):

Есть три последовательности, и я хочу вычислить матрицу различий. Алфавит: H (здоров), I (болен дома), IH (болен в больнице), D (умер)

Я наблюдаю за 3 предметами по 5 наблюдений. Вот эти последовательности:

H – H – I – D – D 
H – I – I – I – D 
I – I – H – IH – IH 

Матрица стоимости замещения представляет собой таблицу 4х4 (состояние х состояние). Это должно быть симметрично? Это моя логическая проблема: хотя можно "перейти" из состояний H, I или IH в состояние Died, обратное нелогично.

Могу ли я использовать несимметричную матрицу стоимости замещения в TraMineR?

Если в моей базе данных стоимость замещения (рассчитывается с sm = "TRATE"например, из состояния "I" в "D" меньше (0,5) стоимости замены из состояния "I" в "IH" (0,6), алгоритм OM заменяет "I" на "D" вместо " ПРИВЕТ".

2 ответа

Решение

Мне кажется, что вы ищете нестандартную матрицу затрат. Не обязательно использовать либо TRATE или же CONSTANT метод.

Чтобы создать собственную матрицу, вам просто нужно сделать что-то вроде этого:

myscm <- matrix(c(0,1,2, 
                  1,0,2, 
                  2,2,0), nrow=3, ncol=3) 
dist.om <- seqdist(my.seq, method="OM", sm=myscm)

где myscm это ваша матрица

Это было взято с http://lists.r-forge.r-project.org/pipermail/traminer-users/2011-July/000075.html

Я считаю, что у вас есть два варианта:

1) Создайте обоснование для всех переходов и полную пользовательскую матрицу

2) Получить матрицу перехода, которую вы уже сгенерировали (используя seqsubm(your.seq, method = "TRATE")) и измените только противоречивые значения. Это то, что я сделал в моем последнем анализе.

Но имейте в виду точку зрения Гилберта в "асимметричной" попарной матрице расстояний

Коэффициенты переходов (предполагаемые переходные вероятности) не следует путать с затратами на замещение. Предполагается, что затраты на замещение отражают различия между штатами.

Матрица переходных показателей (возвращается seqtrate) НЕ симметричен.

Затраты на замену, используемые для вычисления расстояний, таких как оптимальное сопоставление расстояний, должны быть симметричными. В противном случае результат не будет матрицей расстояний, и ввод такой несимметричной матрицы, например, в процедуру кластеризации приведет к неожиданным результатам.

Получение стоимости замещения из коэффициентов перехода - это лишь одна из нескольких возможностей определения стоимости замещения. Если допустить, что $p(i|j)$ - это вероятность перехода от $j$ к $i$, то она состоит в определении стоимости замещения как

$c(i,j) = 2 - p(i|j) - p(j|i)$

Другие вопросы по тегам