Как выбрать лучший атрибут расщепления с той же информацией усиления
Я на самом деле шаг за шагом вычисляю, как CART (деревья классификации и регрессии) выбирают лучший атрибут, разделенный с помощью этого набора обучающих данных:
Car Age Children Location
1 sedan 23 0 yes
2 sports 31 1 no
3 sedan 36 1 no
4 truck 25 2 no
5 sports 30 0 no
6 sedan 36 0 no
7 sedan 25 0 yes
8 truck 36 1 no
9 sedan 30 2 yes
10 sedan 31 1 yes
11 sports 25 0 no
12 truck 45 0 yes
Результаты, предоставленные R:
- n = 12 узлов), split, n, loss, yval, (yprob) * обозначает конечный узел
- 1) корень 12 5 нет (0,5833333 0,4166667)
- 2) Автомобиль = спорт, грузовик 6 1 нет (0,8333333 0,1666667)
- 4) возраст
- 5) возраст>=40,5 1 0 да (0,0000000 1,0000000) *
- 3) Автомобиль = седан 6 2 да (0,3333333 0,6666667)
- 6) возраст>=33,5 2 0 нет (1,0000000 0,0000000) *
- 7) возраст
Для корневого узла Джини (root) = 0,486
- - с атрибутом Car GainGini(Car)=0,1255;
- - с атрибутом Age я получил такой же прирост с порогом 27,5 и 33,5. Итак, какой из них выбрать, если GainGini (возраст) будет максимальным.
- - с атрибутом "Дети". 2 дочерних узла очень чистые, поэтому GainGini(Children)=0,486
Мой первый вопрос: почему на этом участке я получил атрибут Car для расщепления?
- Для первого правого дочернего узла: Gini (node2) = 0,444
- - с атрибутом Age: порог 33,5 получил GainGini (Age) = 0,444
- -с атрибутом children: такой же, как корневой узел (все экземпляры чистые) GainGini (children) = 0.444
это мой второй вопрос, как CART удается выбрать атрибут split с этими двумя значениями?