У меня есть несколько вопросов о распределенной модели случайного леса
Согласно документам H2O в FAQ раздела DRF, эта заметка упоминается в разделе "Как алгоритм обрабатывает пропущенные значения во время обучения?" ЧАСТО ЗАДАВАЕМЫЕ ВОПРОСЫ:
Примечание: в отличие от GLM, в DRF числовые значения обрабатываются так же, как и категориальные значения. Пропущенные значения не вменяются в среднее значение, как это делается по умолчанию в GLM.
Я использую алгоритм DRF для решения проблемы регрессии, но когда я увидел эту заметку, я почувствовал себя странно. Если я преобразую все числовое значение в категориальное значение для решения проблемы регрессии, я думаю, что это чепуха.
Вот мой вопрос.
- Нужно ли преобразовывать все числовые значения в категориальные значения, чтобы использовать алгоритм DRF?
или же
- Мне не нужно преобразовывать все числовые значения в категориальные значения, чтобы использовать алгоритм DRF?
Спасибо, что прочитали мой вопрос.
1 ответ
Нет, H2O не требует преобразования всех числовых значений в категориальные значения.
Если вы хотите посмотреть, как обученные модели H2O DRF относятся к различным столбцам ввода, следуйте приведенным ниже инструкциям, чтобы просмотреть MOJO.
Обратите внимание на рисунок ниже, что числовые столбцы обрабатываются сравнением значений "меньше", а категориальные столбцы обрабатываются путем отправки некоторых уровней левому дочернему элементу, а других - правому дочернему элементу.