Как откалибровать модели выживания, построенные случайным лесом или бустингом?
Я провожу анализ выживаемости, используя данные, прошедшие цензуру справа. У меня есть странное наблюдение, что для моделей машинного обучения, таких как xgboost и random forest (с использованием библиотеки R rfsrc), хотя они могут возвращать модели с большим соответствием или AUC, окончательные модели всегда не калиброваны. В частности, количество событий, прогнозируемых для каждого временного окна, намного превышает фактическое, что делает модели непригодными для использования, несмотря на приличную производительность при ранжировании рисков. С другой стороны, модели регрессии Кокса, хотя и имеют более низкую конкордантность /AUC, не имеют этой проблемы.
Кто-нибудь знает причину этого? Любые предложения о том, как откалибровать модели выживания ML?
Спасибо.