Как рассчитать прирост информации для набора данных ниже?

Question

Как рассчитать прирост информации для набора данных ниже?

При понимании расчета прироста информации - вероятность возникновения рака в популяции составляет 1%. Тест на рак правильно идентифицирует больных раком с вероятностью 50% и не раковых пациентов с вероятностью 99,5%. Теперь я должен рассчитать прирост информации, полученный с помощью этого теста на рак? Это один из вопросов упражнения, который я пытаюсь решить, изучая энтропию и получая информацию. изменить - моя попытка рассчитать выше -

Если мы рассмотрим общее население как 100 -
Cancer patient =1 Non-cancer patient = 99 Entropy H = -1/100 log(1/100)- 99/100 log(99/100)

Теперь тест на больного раком дает мне - 50% больного раком и 50% больного раком. Следовательно, энтропия классификации как больного раком -

H1 = -1/2(log1/2)-1/2log(1/2)

Не раковым больным он дает 99,5% не раковых пациентов и 0,5% онкологических заболеваний. Поэтому прирост информации должен быть. Энтропия классификации для незлокачественных пациентов -

H2 = -(99.5*99/100)log(99.5*99/100) - (5/100)*99 log(5/100*99)Я хочу знать, это правильный способ получить энтропию после теста. Если это правильно, информационный прирост может быть рассчитан -

Information gain = H - (H1+H2)

0

machine-learning classification decision-tree information-gain

Источник

user275977 24 ноя '15 в 19:51

0 ответов

Другие вопросы по тегам machine-learning classification decision-tree information-gain