Как рассчитать прирост информации для набора данных ниже?
При понимании расчета прироста информации - вероятность возникновения рака в популяции составляет 1%. Тест на рак правильно идентифицирует больных раком с вероятностью 50% и не раковых пациентов с вероятностью 99,5%. Теперь я должен рассчитать прирост информации, полученный с помощью этого теста на рак? Это один из вопросов упражнения, который я пытаюсь решить, изучая энтропию и получая информацию. изменить - моя попытка рассчитать выше -
Если мы рассмотрим общее население как 100 -Cancer patient =1
Non-cancer patient = 99
Entropy H = -1/100 log(1/100)- 99/100 log(99/100)
Теперь тест на больного раком дает мне - 50% больного раком и 50% больного раком. Следовательно, энтропия классификации как больного раком -
H1 = -1/2(log1/2)-1/2log(1/2)
Не раковым больным он дает 99,5% не раковых пациентов и 0,5% онкологических заболеваний. Поэтому прирост информации должен быть. Энтропия классификации для незлокачественных пациентов -
H2 = -(99.5*99/100)log(99.5*99/100) - (5/100)*99 log(5/100*99)
Я хочу знать, это правильный способ получить энтропию после теста. Если это правильно, информационный прирост может быть рассчитан -
Information gain = H - (H1+H2)