Модель Кокса PH в "линиях жизни" - нарушенные предположения для фиктивных переменных
Я использую lifelines
библиотека для оценки модели Cox PH. Для регрессии у меня есть много категориальных функций, которые я быстро кодирую и удаляю по одному столбцу для каждой функции, чтобы избежать проблемы мультиколлинеарности (ловушка фиктивной переменной). Я не прилагаю код, так как пример может быть похож на тот, который приведен в документации здесь.
Бегом cph.check_assumptions(data)
Я получаю информацию о том, что каждая фиктивная переменная нарушает предположения:
Variable 'dummy_a' failed the non-proportional test: p-value is 0.0063.
Advice: with so few unique values (only 2), you can try `strata=['dummy_a']` in the call in `.fit`. See documentation in link [A] and [B] below.
Как мне понять совет в терминах нескольких фиктивных переменных для одной категориальной функции? Должен ли я добавить их все в страты?
Буду признателен за любые комментарии:)
1 ответ
@abu, ваш вопрос вызывает явный пробел в документации - что делать, если фиктивные переменные нарушают тест пропорциональности. В этом случае я предлагаю не использовать фиктивную переменную и добавить исходный столбец как стратифицированную переменную, например:fit(..., strata=['dummy'])