Модель Кокса PH в "линиях жизни" - нарушенные предположения для фиктивных переменных

Я использую lifelinesбиблиотека для оценки модели Cox PH. Для регрессии у меня есть много категориальных функций, которые я быстро кодирую и удаляю по одному столбцу для каждой функции, чтобы избежать проблемы мультиколлинеарности (ловушка фиктивной переменной). Я не прилагаю код, так как пример может быть похож на тот, который приведен в документации здесь.

Бегом cph.check_assumptions(data) Я получаю информацию о том, что каждая фиктивная переменная нарушает предположения:

Variable 'dummy_a' failed the non-proportional test: p-value is 0.0063.
Advice: with so few unique values (only 2), you can try `strata=['dummy_a']` in the call in `.fit`. See documentation in link [A] and [B] below.

Как мне понять совет в терминах нескольких фиктивных переменных для одной категориальной функции? Должен ли я добавить их все в страты?

Буду признателен за любые комментарии:)

1 ответ

Решение

@abu, ваш вопрос вызывает явный пробел в документации - что делать, если фиктивные переменные нарушают тест пропорциональности. В этом случае я предлагаю не использовать фиктивную переменную и добавить исходный столбец как стратифицированную переменную, например:fit(..., strata=['dummy'])

Другие вопросы по тегам