Нужно ли мне нормализовать (или масштабировать) данные для Случайного леса (drf) или Градиентной машины повышения (GBM) в H2O или вообще?
Я создаю модели классификации и регрессии, используя Случайный лес (DRF) и GBM в H2O.ai. Я считаю, что мне не нужно нормализовать (или масштабировать) данные, поскольку они необязательны, а скорее более вредны, так как могут сгладить нелинейный характер модели. Не могли бы вы подтвердить, если мое понимание верно.
1 ответ
Вам не нужно ничего делать с вашими данными при использовании H2O - все алгоритмы обрабатывают числовые / категориальные / строковые столбцы автоматически. Некоторые методы выполняют внутреннюю стандартизацию автоматически, но древовидные методы этого не делают и не нуждаются (разделение в возрасте> 5 и доход < 100000 - это хорошо). Что касается того, "вредно" ли это, зависит от того, что вы делаете, обычно хорошей идеей является позволить алгоритму выполнить стандартизацию, если вы точно не знаете, что делаете. Одним из примеров является кластеризация, где расстояния зависят от масштабирования (или его отсутствия) данных.