Что такое формула InfoGainAttributeEval Weka для оценки энтропии с непрерывными значениями?
Я использую функцию выбора атрибутов Weka для получения информации и пытаюсь выяснить, какую конкретную формулу использует Weka при работе с непрерывными данными.
Я понимаю, что обычная формула для энтропии это когда значения в данных являются дискретными. Я понимаю, что при работе с непрерывными данными можно использовать дифференциальную энтропию или дискретизировать значения. Я попытался посмотреть объяснение Weka для InfoGainAttributeEval и просмотрел множество других ссылок, но ничего не смог найти.
Может быть, это только я, но кто-нибудь знает, как Weka реализует этот случай?
Спасибо!
1 ответ
Я спросил автора Марка Холла, и он сказал:
Он использует метод дискретизации Fayad и Irani, основанный на MDL. Смотрите Javadocs:
http://weka.sourceforge.net/doc.stable-3-8/weka/attributeSelection/InfoGainAttributeEval.html
Также вы можете увидеть эту ссылку для метода дискретизации:
http://weka.sourceforge.net/doc.stable-3-8/weka/filters/supervised/attribute/Discretize.html