H2O - классы баланса - перекрестная проверка
Я хотел бы построить модель GBM с H2O. Мой набор данных несбалансирован, поэтому я использую параметр balance_classes. Для поиска по сетке (настройки параметров) я хотел бы использовать 5-кратную перекрестную проверку. Мне интересно, как H2O справляется с балансировкой классов в этом случае. Будут ли перебалансированы только тренировочные складки? Я хочу быть уверен, что тест-фолд не перебалансирован.
Спасибо.
2 ответа
В настройках дисбаланса классов искусственная балансировка набора тестов / проверок не имеет никакого смысла: эти наборы должны оставаться реалистичными, т.е. вы хотите проверить производительность своего классификатора в реальных условиях, где, скажем, отрицательный класс будет включать 99% Из примеров, чтобы увидеть, насколько хорошо ваша модель будет делать в прогнозировании 1% положительного класса интересов без слишком большого количества ложных срабатываний. Искусственное раздувание класса меньшинства или уменьшение класса большинства приведет к нереалистичным показателям производительности, не имеющим реального отношения к реальной проблеме, которую вы пытаетесь решить.
Перебалансировка имеет смысл только в обучающем наборе, чтобы не дать классификатору просто и наивно классифицировать все экземпляры как отрицательные для предполагаемой точности 99%.
Следовательно, вы можете быть уверены, что в описываемой вами обстановке ребалансировка действует только для тренировочного набора / сгибов.
Способ принудительного балансирования заключается в использовании весовых столбцов для разных способов в разных классах в H2O. weights_column