Как бороться с цензурой?
Я работаю над проектом по прогнозированию дня (сбоя трансплантата) с использованием подходов машинного обучения с набором данных, содержащим около 900 переменных, я новичок в этой области и не уверен, нахожусь ли я на правильном пути.
Сначала я использовал Neural Network для прогнозирования, используя библиотеку Keras в python, затем я понял, что в моих данных есть 70% цензурированных экземпляров (переменная Y). Тем не менее, у меня есть также переменная отслеживания в дополнение к Y. Итак, я пришел к выводу, что я не должен использовать нейронную сеть для такого рода проблем, а также я должен заранее обработать цензурированные данные. Теперь у меня есть три вопроса:
1) Нормально ли иметь такой уровень цензурированных данных? Как мы должны иметь дело с такого рода делами?
2) Верен ли мой вывод о том, что нейронная сеть - не лучшее решение для моей проблемы? Если нет, то каков наиболее распространенный подход к машинному обучению? Я нашел для этой цели пакеты спасательных кругов и спасательных средств, но я не знаю, какой из них лучше, и это правильное решение.
3) Я заменил данные, подвергнутые цензуре, на переменную отслеживания, в то время как из-за высокого процента данных, подвергнутых цензуре в моем наборе данных, я думаю, что они не подходят. Я понял, что должен использовать другой подход, такой как калибровка, но я не смог найти библиотеку python для этого. Не могли бы вы помочь мне с этим? Что обычно используется для калибровки в Pyhton?
1 ответ
Я думаю, что способ справиться с цензурированными данными - использовать модель, которая предсказывает пропорциональную опасность Кокса / Каплана Мейера. Похоже, что здесь есть фреймворк researchgate.net/publication/…. у него есть ассоциированный GitHub github.com/jaredleekatzman/DeepSurv. К сожалению в Теано не Керас
Я забрал то, что сказал. Я нашел версию keras (хотя я думаю, что это все еще бэкэнд с theano; не слишком сложно изменить)!
https://github.com/mexchy1000/DeepSurv_Keras/blob/master/Survival_Keras_lifelineExample.py