Сокращения в деревьях регрессии последовательностей
Я использую деревья регрессии последовательностей, чтобы исследовать различия в карьерных траекториях. Как в графике, так и в печатном описании дерева, есть сокращения, которые не объясняются ни в меню справки TraMineR, ни в статье Матиаса Стадера "Деревья регрессии последовательностей / Взвешенные кластеры".
Не могли бы вы дать мне знать, что означают следующие сокращения в приведенном ниже примере (d-сюжет об иерархическом продвижении 377 участников за 15 лет (30 периодов по 6 месяцев каждый)? Большое спасибо!
ПЕЧАТНЫЙ ВЫХОД
Dissimilarity tree:
Parameters: minSize=18.85, maxdepth=3, R=5000, pval=0.01
Formula: matOM ~ Age + Degree + Gender + YearsSinceGrad
Global R2: 0.011589
Fitted tree:
|-- Root (n: 377 disc: 0.55559)
|-> Age 0.011589
|-- <= 48 with NA (n: 260 disc: 0.53812)[(1,20)-(2,8)-(3,2)] *
|-- > 48 (n: 117 disc: 0.57369)[(1,14)-(2,12)-(3,4)] *
Вопрос 1: диск =? (-> На графике равен s2, см. Ниже) Вопрос 2: [(1,20)-(2,8)-(3,2)] * =? (Это самая типичная последовательность?)
РАЗМЕЩЕННЫЙ ВЫХОД Вопрос 3: s2 =? (Равно "диск" в выводе на печать выше)
1 ответ
Спасибо за ваши замечания!
Вопрос 1: Да, "диск" = "s2" в сюжете (я должен это исправить). Это означает "несоответствие". Высокое несоответствие означает, что существует множество вариаций по последовательностям. Диапазон несоответствия составляет [0, максимально возможное расстояние], и, таким образом, нет значений предельного значения. Но вы можете сравнить некоторые значения.
Тест Левена (который в вашем случае незначителен, см. Изображение) проверяет значимость различия в расхождениях. Этот тест можно запустить с dissassoc
функция. В дереве Левен проверяет равенство расхождений в терминальных узлах (опять же, здесь различия кажутся несущественными).
Вопрос 2: в печатном виде последовательность в квадратных скобках [] является центроидом. Это самая центральная последовательность подгруппы.
Вопрос 3: см. Ответ на вопрос 1.
Надеюсь это поможет.