Стоимость замены траминера
У меня есть логическая проблема с матрицей переходных расходов. Я работаю над различием последовательностей, используя пакет R Traminer.
Я пытаюсь дать вам простой пример (очень простой, но я надеюсь, что полезно объяснить мою проблему):
Есть три последовательности, и я хочу вычислить матрицу различий. Алфавит: H (здоров), I (болен дома), IH (болен в больнице), D (умер)
Я наблюдаю за 3 предметами по 5 наблюдений. Вот эти последовательности:
H – H – I – D – D
H – I – I – I – D
I – I – H – IH – IH
Матрица стоимости замещения представляет собой таблицу 4х4 (состояние х состояние). Это должно быть симметрично? Это моя логическая проблема: хотя можно "перейти" из состояний H, I или IH в состояние Died, обратное нелогично.
Могу ли я использовать несимметричную матрицу стоимости замещения в TraMineR?
Если в моей базе данных стоимость замещения (рассчитывается с sm = "TRATE"
например, из состояния "I" в "D" меньше (0,5) стоимости замены из состояния "I" в "IH" (0,6), алгоритм OM заменяет "I" на "D" вместо " ПРИВЕТ".
2 ответа
Мне кажется, что вы ищете нестандартную матрицу затрат. Не обязательно использовать либо TRATE
или же CONSTANT
метод.
Чтобы создать собственную матрицу, вам просто нужно сделать что-то вроде этого:
myscm <- matrix(c(0,1,2,
1,0,2,
2,2,0), nrow=3, ncol=3)
dist.om <- seqdist(my.seq, method="OM", sm=myscm)
где myscm
это ваша матрица
Это было взято с http://lists.r-forge.r-project.org/pipermail/traminer-users/2011-July/000075.html
Я считаю, что у вас есть два варианта:
1) Создайте обоснование для всех переходов и полную пользовательскую матрицу
2) Получить матрицу перехода, которую вы уже сгенерировали (используя seqsubm(your.seq, method = "TRATE")
) и измените только противоречивые значения. Это то, что я сделал в моем последнем анализе.
Но имейте в виду точку зрения Гилберта в "асимметричной" попарной матрице расстояний
Коэффициенты переходов (предполагаемые переходные вероятности) не следует путать с затратами на замещение. Предполагается, что затраты на замещение отражают различия между штатами.
Матрица переходных показателей (возвращается seqtrate
) НЕ симметричен.
Затраты на замену, используемые для вычисления расстояний, таких как оптимальное сопоставление расстояний, должны быть симметричными. В противном случае результат не будет матрицей расстояний, и ввод такой несимметричной матрицы, например, в процедуру кластеризации приведет к неожиданным результатам.
Получение стоимости замещения из коэффициентов перехода - это лишь одна из нескольких возможностей определения стоимости замещения. Если допустить, что $p(i|j)$ - это вероятность перехода от $j$ к $i$, то она состоит в определении стоимости замещения как
$c(i,j) = 2 - p(i|j) - p(j|i)$