Как выбрать лучший атрибут расщепления с той же информацией усиления

Я на самом деле шаг за шагом вычисляю, как CART (деревья классификации и регрессии) выбирают лучший атрибут, разделенный с помощью этого набора обучающих данных:

      Car Age Children Location
1   sedan  23        0      yes
2  sports  31        1       no
3   sedan  36        1       no
4   truck  25        2       no
5  sports  30        0       no
6   sedan  36        0       no
7   sedan  25        0      yes
8   truck  36        1       no
9   sedan  30        2      yes
10  sedan  31        1      yes
11 sports  25        0       no
12  truck  45        0      yes

Результаты, предоставленные R:

  • n = 12 узлов), split, n, loss, yval, (yprob) * обозначает конечный узел
  • 1) корень 12 5 нет (0,5833333 0,4166667)
  • 2) Автомобиль = спорт, грузовик 6 1 нет (0,8333333 0,1666667)
  • 4) возраст
  • 5) возраст>=40,5 1 0 да (0,0000000 1,0000000) *
  • 3) Автомобиль = седан 6 2 да (0,3333333 0,6666667)
  • 6) возраст>=33,5 2 0 нет (1,0000000 0,0000000) *
  • 7) возраст

Для корневого узла Джини (root) = 0,486

  • - с атрибутом Car GainGini(Car)=0,1255;
  • - с атрибутом Age я получил такой же прирост с порогом 27,5 и 33,5. Итак, какой из них выбрать, если GainGini (возраст) будет максимальным.
  • - с атрибутом "Дети". 2 дочерних узла очень чистые, поэтому GainGini(Children)=0,486

Мой первый вопрос: почему на этом участке я получил атрибут Car для расщепления?

    Для первого правого дочернего узла: Gini (node2) = 0,444
  • - с атрибутом Age: порог 33,5 получил GainGini (Age) = 0,444
  • -с атрибутом children: такой же, как корневой узел (все экземпляры чистые) GainGini (children) = 0.444

это мой второй вопрос, как CART удается выбрать атрибут split с этими двумя значениями?

0 ответов

Другие вопросы по тегам