У меня есть несколько вопросов о распределенной модели случайного леса

Question

У меня есть несколько вопросов о распределенной модели случайного леса

Согласно документам H2O в FAQ раздела DRF, эта заметка упоминается в разделе "Как алгоритм обрабатывает пропущенные значения во время обучения?" ЧАСТО ЗАДАВАЕМЫЕ ВОПРОСЫ:

Примечание: в отличие от GLM, в DRF числовые значения обрабатываются так же, как и категориальные значения. Пропущенные значения не вменяются в среднее значение, как это делается по умолчанию в GLM.

Я использую алгоритм DRF для решения проблемы регрессии, но когда я увидел эту заметку, я почувствовал себя странно. Если я преобразую все числовое значение в категориальное значение для решения проблемы регрессии, я думаю, что это чепуха.

Вот мой вопрос.

Нужно ли преобразовывать все числовые значения в категориальные значения, чтобы использовать алгоритм DRF?

или же

Мне не нужно преобразовывать все числовые значения в категориальные значения, чтобы использовать алгоритм DRF?

Спасибо, что прочитали мой вопрос.

0

python machine-learning random-forest h2o

Источник

user9663120 18 апр '18 в 09:13

1 ответ

Решение

Другие вопросы по тегам python machine-learning random-forest h2o

user2085461 18 апр '18 в 10:35 2018-04-18 10:35 · Accepted Answer · 2018-04-18 10:35

Нет, H2O не требует преобразования всех числовых значений в категориальные значения.

Если вы хотите посмотреть, как обученные модели H2O DRF относятся к различным столбцам ввода, следуйте приведенным ниже инструкциям, чтобы просмотреть MOJO.

http://docs.h2o.ai/h2o/latest-stable/h2o-genmodel/javadoc/overview-summary.html

Обратите внимание на рисунок ниже, что числовые столбцы обрабатываются сравнением значений "меньше", а категориальные столбцы обрабатываются путем отправки некоторых уровней левому дочернему элементу, а других - правому дочернему элементу.