Использует ли прогностическое среднее совпадение (pmm) в пакете MICE только строки без каких-либо пропущенных данных для оценки его коэффициентов?
У меня есть дата-фрейм, который содержит данные о количестве различных растений в течение 5 последовательных лет (1 значение в год; от T2 до T6) для разных участков (15 участков) и обработок (просмотр и просмотр без просмотра). Т2-Т6 находятся в столбцах, и у меня есть один столбец с указанием вида.
Для некоторых сайтов T5 систематически отсутствует. Для остальных сайтов T4 и T6 оба отсутствуют. T2 и T3 доступны для всех сайтов.
Вот пример того, как это выглядит:
> data = matrix(c(0.02, 0.02, 0.03, NA, 0.06,
+ 0.01, 0.04, NA, 0.03, NA,
+ 0.11, 0.12, 0.14, NA, 0.19,
+ 0.06, 0.04, NA, 0, NA,
+ 0.22, 0.26, 0.34, NA, 0.46),5,5, byrow=TRUE)
> colnames(data) = c("T2", "T3", "T4", "T5", "T6")
> data = as.data.frame(data)
> data$species = c("Abibal", "Abibal", "Abibal", "Rubida", "Rubida")
> data
T2 T3 T4 T5 T6 species
1 0.02 0.02 0.03 NA 0.06 Abibal
2 0.01 0.04 NA 0.03 NA Abibal
3 0.11 0.12 0.14 NA 0.19 Abibal
4 0.06 0.04 NA 0.00 NA Rubida
5 0.22 0.26 0.34 NA 0.46 Rubida
Следовательно, нет строки, в которой нет NA.
Поскольку данные систематически отсутствуют, но вероятность их пропуска не связана со значением данных, я считаю, что данные отсутствуют в произвольном порядке (MAR).
Теперь я хотел бы использовать Mouse() и прогнозирующее среднее значение для расчета моих пропущенных данных. Я запустил его в первый раз и не столкнулся с ошибкой. Однако при тщательном рассмотрении вмененных данных я обнаружил некоторые странные вмененные данные.
Пытаясь лучше понять механизм прогнозирования среднего значения, я прочитал, что функция начинается с оценки линейной регрессии для случаев без отсутствующих данных.
Означает ли это, что функция использует только строки без пропущенных данных для оценки его коэффициентов? Или что, например, когда функция пытается вычислить значения для T5, она использует только строки, в которых отсутствуют данные для T5, для оценки его коэффициентов?
Кроме того, как функция учитывает качественные переменные (например, "виды") при оценке его коэффициентов? Оценивает ли он коэффициенты для каждого значения "вида" индивидуально?
Любая помощь по этому вопросу, или о том, что было бы лучшим способом вменять данные в моем случае, приветствуется.
Большое спасибо,
Laurent