Как использовать деревья решений для анализа выживаемости?
У меня проблемы с пониманием и применением деревьев решений для анализа выживания в Python. У меня есть набор данных с переменными возрастом, весом, размером опухоли, объемом, ... (все плавающие), и я хочу знать, есть ли корреляция с общей выживаемостью (также плавающая).
Но как я могу применить для этого деревья решений? В литературе я видел только примеры, где y_train должен быть категориальной переменной (например, 0 или 1, доброкачественной или злокачественной, ...), но она не работает с непрерывными переменными, такими как числа с плавающей запятой.
Однако я хочу создать дерево решений, чтобы в конце концов вы могли выяснить, что при размере опухоли> xx и объеме>yy ваша прогнозируемая общая выживаемость составляет примерно <zzz.
Может ли кто-нибудь помочь мне с моей проблемой? Есть ли у кого-нибудь идеи, где по этой теме почитать подробнее?
1 ответ
Пакет Scikit-Survival предоставляет несколько моделей дерева решений ансамбля, таких как RandomSurvivalForest, а также классические модели, такие как модель Кокса CoxPhSurvivalAnalysis .
Документы предоставляют хороший пример кода . Что касается целевой переменной
y
, по крайней мере, в этом случае в документации указано
y - структурированный массив, содержащий двоичный индикатор события в качестве первого поля и время события или время цензуры в качестве второго поля.