Значительное взаимодействие в линейной модели смешанного эффекта, но график показывает перекрывающиеся доверительные интервалы?
Это мой первый крик о помощи в stackru, поэтому, пожалуйста, извините за любые ошибки, которые я сделал, и, пожалуйста, прокомментируйте, если потребуется дополнительная информация. К сожалению, я не могу предоставить вам исходные данные, поскольку они являются конфиденциальными. Я стараюсь показать вам как можно больше структуры данных и полученных результатов.
Структура данных следующая:
GroupID Person Factor2 Factor1 Rating
<int> <int> <fctr> <fctr> <int>
1 2 109 2 0 1
2 2 109 2 1 -2
3 2 104 1 0 4
4 2 236 1 1 1
5 2 279 1 1 2
6 2 179 2 1 0
Человек - это идентификатор участника, GroupID - это вид оцениваемого стимула, Фактор 1 (уровни 0 и 1) и Фактор 2 (уровни 1 и 2) являются фиксированными факторами, а Рейтинги - переменными результата.
Я пытаюсь напечатать график значительного взаимодействия в линейной модели со смешанным эффектом. Я использовал пакеты lme4 и lmerTest для анализа данных.
Это модель, которую мы запустили:
> model_interaction <- lmer(Rating ~ Factor1 * Factor2 + ( 1 | Person) +
(1 | GroupID), data)
> model_interaction
Linear mixed model fit by REML ['merModLmerTest']
Formula: Rating ~ Factor1 * Factor2 + (1 | Person) + (1 | GroupID)
Data: data
REML criterion at convergence: 207223.9
Random effects:
Groups Name Std.Dev.
Person (Intercept) 1.036
GroupID (Intercept) 1.786
Residual 1.880
Number of obs: 50240, groups: Person, 157; GroupID, 80
Fixed Effects:
(Intercept) Factor11 Factor22 Factor11:Factor22
-0.43823 0.01313 0.08568 0.12440
Когда я использую summary(), функция R возвращает следующий вывод
> summary(model_interaction)
Linear mixed model fit by REML
t-tests use Satterthwaite approximations to degrees of freedom
['lmerMod']
Formula: Rating ~ Factor1 * Factor2 + (1 | Person) + (1 | GroupID)
Data: data
REML criterion at convergence: 207223.9
Scaled residuals:
Min 1Q Median 3Q Max
-4.8476 -0.6546 -0.0213 0.6516 4.2284
Random effects:
Groups Name Variance Std.Dev.
Person (Intercept) 1.074 1.036
GroupID (Intercept) 3.191 1.786
Residual 3.533 1.880
Number of obs: 50240, groups: Person, 157; GroupID, 80
Fixed effects:
Estimate Std. Error df t value Pr(>|t|)
(Intercept) -4.382e-01 2.185e-01 1.110e+02 -2.006 0.047336 *
Factor11 1.313e-02 2.332e-02 5.004e+04 0.563 0.573419
Factor22 8.568e-02 6.275e-02 9.793e+03 1.365 0.172138
Factor11:Factor22 1.244e-01 3.385e-02 5.002e+04 3.675 0.000238 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Correlation of Fixed Effects:
(Intr) Fctr11 Fctr22
Factor11 -0.047
Factor22 -0.135 0.141
Fctr11:Fc22 0.034 -0.694 -0.249
Я знаю, что невозможно интерпретировать p-значения для линейной модели смешанных эффектов. Таким образом, я запустил дополнительную анову, сравнивая модель взаимодействия с моделью только с основными эффектами Factor 1 и Factor 2
> model_Factor1_Factor2 = lmer(Rating ~ Factor1 + Factor2 +
( 1 | Person) + (1 | GroupID), data)
> anova(model_Factor1_Factor2, model_interaction)
Data: data
Models:
object: Rating ~ Factor1 + Factor2 + (1 | Person) + (1 | GroupID)
..1: Rating ~ Factor1 * Factor2 + (1 | Person) + (1 | GroupID)
Df AIC BIC logLik deviance Chisq Chi Df Pr(>Chisq)
object 6 207233 207286 -103611 207221
..1 7 207222 207283 -103604 207208 13.502 1 0.0002384 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Я интерпретировал этот Результат как: Взаимодействие Фактора1 и Фактора2 объясняет дополнительную разницу в моем измерении результатов по сравнению с моделью только с основными эффектами Фактора1 и Фактора2.
Поскольку интерпретировать выходные данные для линейных моделей со смешанными эффектами сложно, я хотел бы напечатать график, показывающий взаимодействие Factor 1 и Factor2. Я сделал это с помощью пакета lsmeans (сначала я использовал график (allEffects), но после прочтения этого раздела Как получить коэффициенты и их доверительные интервалы в моделях со смешанными эффектами? Вопрос, я понял, что это не правильный способ печати графиков для линейных моделей со смешанными эффектами).
Вот что я и сделал (следуя этому сайту http://rcompanion.org/handbook/G_06.html)
> leastsquare = lsmeans(model_interaction, pairwise ~ Factor2:Factor1,
adjust="bon")
> CLD = cld(leastsquare, alpha=0.05, Letters=letters, adjust="bon")
> CLD$.group=gsub(" ", "", CLD$.group)
> CLD
Factor2 Factor1 lsmean SE df lower.CL upper.CL .group
1 0 -0.4382331 0.2185106 111.05 -0.9930408 0.1165746 a
1 1 -0.4251015 0.2186664 111.36 -0.9803048 0.1301018 a
2 0 -0.3525561 0.2190264 112.09 -0.9086735 0.2035612 a
2 1 -0.2150234 0.2189592 111.95 -0.7709700 0.3409233 b
Degrees-of-freedom method: satterthwaite
Confidence level used: 0.95
Conf-level adjustment: bonferroni method for 4 estimates
P value adjustment: bonferroni method for 6 tests
significance level used: alpha = 0.05
Это функция построения я использовал
> ggplot(CLD, aes(`Factor1`, y = lsmean, ymax = upper.CL,
ymin = lower.CL, colour = `Factor2`, group = `Factor2`)) +
geom_pointrange(stat = "identity",
position = position_dodge(width = 0.1)) +
geom_line(position = position_dodge(width = 0.1))
Сюжет можно найти по этой ссылке (мне пока не разрешено публиковать изображения, извините, пожалуйста, обходной путь)
Взаимодействие Фактора1 и Фактора2
Теперь мой вопрос заключается в следующем: почему у меня есть существенное взаимодействие и значительное количество объясненной дисперсии этим взаимодействием, но мои доверительные интервалы в сюжете перекрываются? Я думаю, что я сделал что-то не так с доверительными интервалами? Или это потому, что просто невозможно интерпретировать индексы значимости для линейных моделей смешанных эффектов?
1 ответ
Потому что это яблоки и апельсины.
Яблоки: доверительные интервалы для средств.
Апельсины: испытания перепадов средств.
Средства и различия средств - это разные статистические данные, и они имеют разные стандартные ошибки и другие свойства распределения. В частности, в смешанных моделях они могут радикально отличаться, потому что некоторые источники отклонения могут компенсироваться, когда вы берете различия.
Не пытайтесь использовать доверительные интервалы для сравнения. Это как пытаться приготовить куриный суп из гамбургера.