Какой дистрибутив использовать в моделях lmer?
Привет всем,
Приношу свои извинения, если этот вопрос тривиален или был задан ранее. Я искал, но не смог найти удовлетворительный ответ на мой случай. Я не очень знаком со статистическим моделированием, так как по профессии я полевой эколог. Поэтому, пожалуйста, потерпите меня.
Вкратце, у нас есть набор данных с подсчетом насекомых (они обычно указываются как количество особей на квадратный метр, поэтому я хотел бы использовать это) на участках, которые подвергались различным обработкам. У нас есть данные за два года (одни и те же участки были отобраны), и травоядные были исключены (клетки были подвешены) из половины участков, в то время как остальные были выпиты. Итак, я хотел бы знать, повлияло ли лечение на количество животных, и есть ли взаимодействие с годом, а также влияют ли травоядные животные на количество животных в разные годы и количество обработок. В основном идея заключается в следующем:
Block Treatment Year Herbivory animals.sq.m
1-10 1-4 2004-2016 no/yes 0.125
Модель, которую я использую сейчас, выглядит так
library(lmerTest)
model<-lmer(Total_surface~Treatment*Year*Cage + (1 | Block), data=collembola1)
Я полагаю, что этой модели будет достаточно, чтобы ответить на мой экологический вопрос.
Теперь я сомневаюсь, что это данные подсчета, и модель может работать с этим некорректно. Я вычислил средние и дисперсии, используя бит кода ниже. Вариации намного больше, чем средние (поэтому я предполагаю, что не могу использовать распределение Пуассона?). Мой вопрос здесь заключается в том, какой дистрибутив я должен использовать и как. Кроме того, считается ли это нормально для лог-преобразования данных, таких как мои, в случае гетероскедастичности?
dispersionstats_collembola <- collembola1 %>%
group_by(Treatment, Year) %>%`
summarise( means = mean(Total_surface),
variances = var(Total_surface),
ratio = variances/means)
dispersionstats_collembola
Большое спасибо заранее.