Почему я получаю отрицательный информационный прирост?
[Решено]
Моя ошибка заключалась в том, что я не осознавал, что энтропия равна 0, если все они одного типа. Таким образом, если все положительны, энтропия равна 0, а если все отрицательны, то она также равна нулю. Энтропия будет равна 1, если равное количество будет положительным и отрицательным.
Не имеет смысла получать отрицательный информационный прирост.
Однако на основе этого примера я получаю отрицательный информационный прирост.
вот данные:
И если я вычислю прирост информации по атрибуту Humidity, я получу это:
Очевидно, я что-то здесь упускаю.
РЕДАКТИРОВАТЬ: Чтобы уточнить, как я понимаю.
Энтропия всей системы определяется как:
Что в этом случае является:
А выигрыш информации по атрибуту определяется как:
Который для влажности я рассчитываю на:
Энтропия системы - (1/4) энтропия влажности нормальная - (3/4) энтропия влажности высокая
В соответствии с этим Libre Office Calc:
Или мое понимание формулы получения информации для атрибута неверно?
1 ответ
Для начала я предполагаю, что ваша переменная S - EnjoySport. (Я думаю, вы могли бы сформулировать текст более четко, кстати.)
Таким образом, энтропия S равна 0,8113, но это последняя часть, с которой я согласен.
Энтропия S, заданная Normal, равна 0, поскольку она является детерминированной.
Энтропия S с учетом High составляет 0,91829583405448945, но вам нужно умножить ее на 0,75, потому что это вероятность Normal. Так что вы получите 0,68872187554086706.
Разница не отрицательная, как и ожидалось.
Обратите внимание, что выигрыш в информации - это ожидаемая разница в энтропии, и ожидание должно учитывать вероятность условного события.