Большой Dataframe медленный с анализом выживаемости
Я пытаюсь провести анализ выживания на большом наборе данных (около 80 строк x 12 000 столбцов) в Python.
В настоящее время я использую:
from lifelines import CoxPHFitter
cf = CoxPHFitter()
cf.fit(df, duration_col='Time', event_col='Status')
Но это очень медленно. Разбить информационный фрейм на куски по 100 и запустить cf.fit несколько раз немного быстрее, но он все еще работает примерно в 80-х годах. Это заметно медленнее, чем у Rx, и я бы предпочел не использовать rpy2 для запуска анализа в R.
Я немного растерялся из-за того, как сделать это быстрее, поэтому любые предложения будут с благодарностью.