Как использовать деревья решений для анализа выживаемости?

У меня проблемы с пониманием и применением деревьев решений для анализа выживания в Python. У меня есть набор данных с переменными возрастом, весом, размером опухоли, объемом, ... (все плавающие), и я хочу знать, есть ли корреляция с общей выживаемостью (также плавающая).

Но как я могу применить для этого деревья решений? В литературе я видел только примеры, где y_train должен быть категориальной переменной (например, 0 или 1, доброкачественной или злокачественной, ...), но она не работает с непрерывными переменными, такими как числа с плавающей запятой.

Однако я хочу создать дерево решений, чтобы в конце концов вы могли выяснить, что при размере опухоли> xx и объеме>yy ваша прогнозируемая общая выживаемость составляет примерно <zzz.

Может ли кто-нибудь помочь мне с моей проблемой? Есть ли у кого-нибудь идеи, где по этой теме почитать подробнее?

1 ответ

Пакет Scikit-Survival предоставляет несколько моделей дерева решений ансамбля, таких как RandomSurvivalForest, а также классические модели, такие как модель Кокса CoxPhSurvivalAnalysis .

Документы предоставляют хороший пример кода . Что касается целевой переменной y, по крайней мере, в этом случае в документации указано

y - структурированный массив, содержащий двоичный индикатор события в качестве первого поля и время события или время цензуры в качестве второго поля.

Другие вопросы по тегам