Гибберский выход в RPart-график в R

Я пытаюсь запустить дерево решений, используя RPart в R - для набора данных с 26 переменными, чтобы классифицировать результат как 0 или 1. Модель имеет достоверную точность 81%, и когда я продолжаю чертить дерево, я получаю очень бессмысленные значения разделения переменных. Пример: v10 содержит список стран, скажем, США, Великобритании, Индии и т. Д., Но график, как показано здесь, представлен в виде некоторых бессмысленных значений. v7 здесь был список URL, v12 некоторые количественные числа в моем наборе данных, но значения дерева выглядят испорченными.Дерево решений с использованием RPart

1 ответ

Решение

Алгоритм заменяет уровни каждого фактора строчными и прописными буквами в алфавите. Если фактор содержит более 56 уровней, буква Z повторяется, поэтому не рекомендуется использовать факторы с более чем 56 уровнями в качестве входных данных для модели rpart.

Тем не менее, можно избежать нежелательного "бессмысленного" вывода: если вы используете plot() + text(), попробуйте использовать параметр "pretty" в функции text (). Пример:

plot(tree)
text(tree, pretty=1)

Другие функции вывода имеют свои специфические параметры для этого. Например, "tags()" имеет параметр "minlength":

labels(tree)
labels(tree,minlength=0)

Надеюсь, это поможет.

Другие вопросы по тегам