Как интерпретировать разбиения rpart на факторные переменные при построении деревьев классификации в R?
Если переменная фактора - климат, с 4 возможными значениями: тропический, засушливый, умеренный, снежный и узел в моем rpart
дерево помечено как "Климат:ab", что такое раскол?
1 ответ
Я предполагаю, что вы используете стандартный способ построения дерева, которое
plot(f)
text(f)
Как вы можете прочитать в справке к text.rpart
аргумент pretty
по умолчанию факторные переменные представлены в виде букв, поэтому a
средства levels(Climate)[1]
и это означает, что на левом узле находятся наблюдения с Climate==levels(Climate)[1]
и справа остальные.
Вы можете распечатать уровни напрямую, используя
plot(f)
text(f, pretty=1)
но я рекомендую использовать draw.tree
из пакета maptree:
require(maptree)
draw.tree(f)
Я использовал поддельные данные для создания графиков:
X <- data.frame(
y=rep(1:4,25),
Climate=rep(c("Tropical", "Arid", "Temperate", "Snow"),25)
)
f <- rpart(y~Climate, X)