Интерпретация значимости категориальных переменных в логистической регрессии
Я использую пакет caret в R для построения модели логистической регрессии для двоичной классификации, и один из моих предикторов - это категориальная переменная с 4 уровнями. Ниже мой код.
> mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")
> mydata$admit <- factor(mydata$admit)
> mydata$rank <- factor(mydata$rank)
> str(mydata)
'data.frame': 400 obs. of 4 variables:
$ admit: Factor w/ 2 levels "0","1": 1 2 2 2 1 2 2 1 2 1 ...
$ gre : int 380 660 800 640 520 760 560 400 540 700 ...
$ gpa : num 3.61 3.67 4 3.19 2.93 3 2.98 3.08 3.39 3.92 ...
$ rank : Factor w/ 4 levels "1","2","3","4": 3 3 1 4 4 2 1 2 3 2 ...
> mymod <- train(admit ~ gre + gpa + rank, data=mydata, method="glm", family="binomial")
> summary(mymod)$coeff
Estimate Std. Error z value Pr(>|z|)
(Intercept) -3.989979073 1.139950936 -3.500132 0.0004650273
gre 0.002264426 0.001093998 2.069864 0.0384651284
gpa 0.804037549 0.331819298 2.423119 0.0153878974
rank2 -0.675442928 0.316489661 -2.134171 0.0328288188
rank3 -1.340203916 0.345306418 -3.881202 0.0001039415
rank4 -1.551463677 0.417831633 -3.713131 0.0002047107
> varImp(mymod)
glm variable importance
Overall
rank3 100.00
rank4 90.72
gpa 19.50
rank2 3.55
gre 0.00
Мой вопрос, как я могу интерпретировать varImp
для модели, особенно в отношении ранга? Так как R принял rank1 к базовому классу be, делает varImp
наибольшее значение для ранга 3 означает, что допуск наиболее различен для наблюдений, когда ранг равен 3 по сравнению с рангом, равным 1? Если это так, то похоже, что он не имеет той же истории, что и коэффициенты модели, потому что ранг 4 имеет более крутой наклон, чем ранг 3, даже если он имеет меньшее значение в соответствии с varImp
,