Как выбрать лучшие вмененные данные с помощью мышей
Используя пакет мышей, я вычислил набор данных как:
имп <- мыши (nhanes)
Он генерирует 5 вмененных данных для каждой переменной:
imp $ imp $ bmi 1 2 3 4 5 1 35,3 30,1 26,3 28,7 27,2 3 30,1 22,0 30,1 28,7 22,0 4 21,7 27,2 25,5 24,9 21,7 6 24,9 25,5 24,9 27,5 22,5 10 20,4 33,2 26,3 27,2 27,4 11 22,0 27,2 27,2 30,1 22,0 12 27,4 20,4 27,2 27,2 20,4 16 30,1 30,1 27,2 22,5 29,6 21 27,4 27,2 26,3 22,0 30,1
Поэтому я не понимаю, как выбрать лучшие вмененные данные.
Например, для bmi (выше), какой из 5 столбцов будет лучшим выбором?
Спасибо
1 ответ
Вся концепция мышей состоит в том, что у вас есть несколько вмененных наборов данных.
Если вам нужен только 1 вмененный набор данных, вы можете использовать пакеты Single Imputation, такие как missForest, imputeR, VIM, которые иногда немного проще использовать / понять с точки зрения синтаксиса.
Преимущество пакета множественного импутации, такого как мыши, заключается в том, что у вас есть несколько импутированных наборов данных, которые могут помочь учесть неопределенности, возникающие при выполнении импутации.
Вы не стали бы использовать один из вмененных наборов данных, вместо этого вы бы провели анализ по всем 5 (или более) из этих наборов данных.
Делая это, вы знаете, насколько могут отличаться результаты вашего анализа. После этого вы можете объединить свои результаты. мыши помогут вам в этом процессе.
Типичный рабочий процесс мышей будет выглядеть так:
# 1. Perform imputations
imp <- mice(nhanes, maxit = 2, m = 2)
# 2. Create model for all imputed datasets / in this case m = 2
fit <- with(data = imp, exp = lm(bmi ~ hyp + chl))
# 3. Pool the results
pool <- pool(fit)
# Print results
summary(pool)
Нет лучшего набора данных. Выбор одного набора данных будет учитываться только в вариации / ошибке набора данных, но не в вариациях между вменяемыми наборами данных.
Вот почему анализ, такой как регрессия, должен использовать with
а также pool
Команды при работе с вмененными данными.