Нужно ли мне нормализовать (или масштабировать) данные для Случайного леса (drf) или Градиентной машины повышения (GBM) в H2O или вообще?

Question

Нужно ли мне нормализовать (или масштабировать) данные для Случайного леса (drf) или Градиентной машины повышения (GBM) в H2O или вообще?

Я создаю модели классификации и регрессии, используя Случайный лес (DRF) и GBM в H2O.ai. Я считаю, что мне не нужно нормализовать (или масштабировать) данные, поскольку они необязательны, а скорее более вредны, так как могут сгладить нелинейный характер модели. Не могли бы вы подтвердить, если мое понимание верно.

1

random-forest xgboost h2o

Источник

user5746807 12 апр '17 в 02:25

1 ответ

Решение

Другие вопросы по тегам random-forest xgboost h2o

user5412472 12 апр '17 в 06:13 2017-04-12 06:13 · Accepted Answer · 2017-04-12 06:13

Вам не нужно ничего делать с вашими данными при использовании H2O - все алгоритмы обрабатывают числовые / категориальные / строковые столбцы автоматически. Некоторые методы выполняют внутреннюю стандартизацию автоматически, но древовидные методы этого не делают и не нуждаются (разделение в возрасте> 5 и доход < 100000 - это хорошо). Что касается того, "вредно" ли это, зависит от того, что вы делаете, обычно хорошей идеей является позволить алгоритму выполнить стандартизацию, если вы точно не знаете, что делаете. Одним из примеров является кластеризация, где расстояния зависят от масштабирования (или его отсутствия) данных.