Как переменная важность / среднее снижение Джини может быть>.5?
В настоящее время я работаю над проектом, в котором я использую Random Forest. Я хочу знать важность функции всех ковариат и хочу использовать MeanDecreaseGini
за это.
Я действительно не понимаю, почему могут быть значения больше 0,5. Индекс Джини не может быть больше 0,5, поэтому и снижения не должно быть. При усреднении по всем значениям в узлах в лесу, где использовался конкретный ковариат, среднее уменьшение Джини не может превышать 0,5. Кто-нибудь может сказать, где моя ошибка в мышлении?
Вот пример кода, где результаты для MeanDecreaseGini
намного больше 0,5:
install.packages("randomForest")
library(randomForest)
set.seed(1)
a <- as.factor(c(rep(1, 20), rep(0, 30)))
b <- c(rnorm(20, 5, 2), rnorm(30, 4, 1))
c <- c(rnorm(25, 0, 1), rnorm(25, 1, 2))
data <- data.frame(a = a, b = b, c = c)
rf <- randomForest(data = data, a ~ b + c, importance = T, ntree = 300)
importance(rf)