Интерпретация значимости категориальных переменных в логистической регрессии

Я использую пакет caret в R для построения модели логистической регрессии для двоичной классификации, и один из моих предикторов - это категориальная переменная с 4 уровнями. Ниже мой код.

> mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")
> mydata$admit <- factor(mydata$admit)
> mydata$rank <- factor(mydata$rank)
> str(mydata)
'data.frame':   400 obs. of  4 variables:
 $ admit: Factor w/ 2 levels "0","1": 1 2 2 2 1 2 2 1 2 1 ...
 $ gre  : int  380 660 800 640 520 760 560 400 540 700 ...
 $ gpa  : num  3.61 3.67 4 3.19 2.93 3 2.98 3.08 3.39 3.92 ...
 $ rank : Factor w/ 4 levels "1","2","3","4": 3 3 1 4 4 2 1 2 3 2 ...
> mymod <- train(admit ~ gre + gpa + rank, data=mydata, method="glm", family="binomial")
> summary(mymod)$coeff
                Estimate  Std. Error   z value     Pr(>|z|)
(Intercept) -3.989979073 1.139950936 -3.500132 0.0004650273
gre          0.002264426 0.001093998  2.069864 0.0384651284
gpa          0.804037549 0.331819298  2.423119 0.0153878974
rank2       -0.675442928 0.316489661 -2.134171 0.0328288188
rank3       -1.340203916 0.345306418 -3.881202 0.0001039415
rank4       -1.551463677 0.417831633 -3.713131 0.0002047107
> varImp(mymod)
glm variable importance

      Overall
rank3  100.00
rank4   90.72
gpa     19.50
rank2    3.55
gre      0.00

Мой вопрос, как я могу интерпретировать varImp для модели, особенно в отношении ранга? Так как R принял rank1 к базовому классу be, делает varImp наибольшее значение для ранга 3 означает, что допуск наиболее различен для наблюдений, когда ранг равен 3 по сравнению с рангом, равным 1? Если это так, то похоже, что он не имеет той же истории, что и коэффициенты модели, потому что ранг 4 имеет более крутой наклон, чем ранг 3, даже если он имеет меньшее значение в соответствии с varImp,

0 ответов

Другие вопросы по тегам