Как интерпретировать разбиения rpart на факторные переменные при построении деревьев классификации в R?

Если переменная фактора - климат, с 4 возможными значениями: тропический, засушливый, умеренный, снежный и узел в моем rpart дерево помечено как "Климат:ab", что такое раскол?

1 ответ

Я предполагаю, что вы используете стандартный способ построения дерева, которое

plot(f)
text(f)

Как вы можете прочитать в справке к text.rpartаргумент pretty по умолчанию факторные переменные представлены в виде букв, поэтому a средства levels(Climate)[1] и это означает, что на левом узле находятся наблюдения с Climate==levels(Climate)[1] и справа остальные.

Вы можете распечатать уровни напрямую, используя

plot(f)
text(f, pretty=1)

Создано rpart

но я рекомендую использовать draw.tree из пакета maptree:

require(maptree)
draw.tree(f)

Создано maptree

Я использовал поддельные данные для создания графиков:

X <- data.frame(
    y=rep(1:4,25),
    Climate=rep(c("Tropical", "Arid", "Temperate", "Snow"),25)
)
f <- rpart(y~Climate, X)
Другие вопросы по тегам