Дерево решений - какую переменную вы бы сначала разбили
Предоставлен набор информации:
Вопрос: По какой функции вы бы сначала разбили данные?
Ну, я пытаюсь найти функцию, которая обладает наибольшим информационным приростом, и, таким образом, я смогу ее найти. (Потому что это уменьшает энтропию больше всего)
Во-первых, я вычисляю вероятность каждой из функций (x1, x2, x3), а также (y), которая является выходной.
p(x1) = 2/3, p(x2) = 1/3, p(x3) = 1/2 , p(y) = 1/2
Затем я вычисляю энтропию каждого:
E(x1) = 1.92 , E(x2) = 0.72, E(x3) = 1 (equally divided true/false, thus Entropy will be 1)
Проблема: и я не уверен, как продолжить отсюда.
Я думал о расчете IG (информационный прирост) по этой формуле:
IG (x1) = p (y) - p(#1 в функции x1)E(3,1) + p(#0 в функции x1) E (0,0) =
IG (x2) = p (y) - p(#1 в функции x2)E(1,1) + p(#0 в функции x2) E (2,2) =
IG (x3) = p (y) - p(#1 в функции x3)E(1,2) + p(#0 в функции x3)E(2,1) =