Почему я получаю отрицательный информационный прирост?

[Решено]

Моя ошибка заключалась в том, что я не осознавал, что энтропия равна 0, если все они одного типа. Таким образом, если все положительны, энтропия равна 0, а если все отрицательны, то она также равна нулю. Энтропия будет равна 1, если равное количество будет положительным и отрицательным.

Не имеет смысла получать отрицательный информационный прирост.

Однако на основе этого примера я получаю отрицательный информационный прирост.

вот данные:введите описание изображения здесь

И если я вычислю прирост информации по атрибуту Humidity, я получу это:

введите описание изображения здесь

Очевидно, я что-то здесь упускаю.

РЕДАКТИРОВАТЬ: Чтобы уточнить, как я понимаю.

Энтропия всей системы определяется как:

введите описание изображения здесь

Что в этом случае является:

введите описание изображения здесь

А выигрыш информации по атрибуту определяется как:

введите описание изображения здесь

Который для влажности я рассчитываю на:

Энтропия системы - (1/4) энтропия влажности нормальная - (3/4) энтропия влажности высокая

В соответствии с этим Libre Office Calc:введите описание изображения здесь

Или мое понимание формулы получения информации для атрибута неверно?

1 ответ

Решение

Для начала я предполагаю, что ваша переменная S - EnjoySport. (Я думаю, вы могли бы сформулировать текст более четко, кстати.)

Таким образом, энтропия S равна 0,8113, но это последняя часть, с которой я согласен.

Энтропия S, заданная Normal, равна 0, поскольку она является детерминированной.

Энтропия S с учетом High составляет 0,91829583405448945, но вам нужно умножить ее на 0,75, потому что это вероятность Normal. Так что вы получите 0,68872187554086706.

Разница не отрицательная, как и ожидалось.


Обратите внимание, что выигрыш в информации - это ожидаемая разница в энтропии, и ожидание должно учитывать вероятность условного события.

Другие вопросы по тегам