Каково реальное значение, подразумеваемое получением информации в интеллектуальном анализе данных?
Information Gain= (Information before split)-(Information after split)
Информационный выигрыш можно найти по приведенному выше уравнению. Но что я не понимаю, в чем именно смысл этой информации? Означает ли это, что сколько информации получено или уменьшено путем разбиения в соответствии с заданным атрибутом или чем-то подобным???
Ссылка на ответ: /questions/9971220/chto-takoe-entropiya-i-poluchenie-informatsii/9971221#9971221
2 ответа
Прирост информации - это уменьшение энтропии, достигаемое после разделения данных по атрибуту. IG = энтропия (до разделения) - энтропия (после разделения). Смотрите http://en.wikipedia.org/wiki/Information_gain_in_decision_trees
Энтропия - это мера присутствия неопределенности. Разделяя данные, мы пытаемся уменьшить энтропию в ней и получить информацию о ней.
Мы хотим максимизировать получение информации, выбирая атрибут и точку разделения, которые максимально уменьшают энтропию.
Если энтропия = 0, то больше никакой информации, которую можно получить из нее.
Правильно написано это
Прирост информации = энтропия до разделения - средняя энтропия после разделения
Разница между энтропией и информацией является признаком. Энтропия высока, если у вас мало информации о данных.
Интуиция - это теория статистической информации. Грубая идея такова: сколько битов в записи нужно для кодирования назначения метки класса? Если у вас остался только один класс, вам нужно 0 бит на запись. Если у вас есть хаотичный набор данных, вам потребуется 1 бит для каждой записи. И если класс неуравновешен, вы можете избежать этого, используя (теоретически!) Оптимальную схему сжатия; например, кодируя только исключения. Чтобы соответствовать этой интуиции, вы, конечно, должны использовать логарифм с основанием 2.
Раскол считается хорошим, если после этого ветви имеют в среднем меньшую энтропию. Затем вы получили информацию о метке класса, разделив набор данных. Значение IG - это среднее количество битов информации, полученной вами для прогнозирования метки класса.