У меня есть несколько вопросов о распределенной модели случайного леса

Согласно документам H2O в FAQ раздела DRF, эта заметка упоминается в разделе "Как алгоритм обрабатывает пропущенные значения во время обучения?" ЧАСТО ЗАДАВАЕМЫЕ ВОПРОСЫ:

Примечание: в отличие от GLM, в DRF числовые значения обрабатываются так же, как и категориальные значения. Пропущенные значения не вменяются в среднее значение, как это делается по умолчанию в GLM.

Я использую алгоритм DRF для решения проблемы регрессии, но когда я увидел эту заметку, я почувствовал себя странно. Если я преобразую все числовое значение в категориальное значение для решения проблемы регрессии, я думаю, что это чепуха.

Вот мой вопрос.

  • Нужно ли преобразовывать все числовые значения в категориальные значения, чтобы использовать алгоритм DRF?

или же

  • Мне не нужно преобразовывать все числовые значения в категориальные значения, чтобы использовать алгоритм DRF?

Спасибо, что прочитали мой вопрос.

1 ответ

Решение

Нет, H2O не требует преобразования всех числовых значений в категориальные значения.

Если вы хотите посмотреть, как обученные модели H2O DRF относятся к различным столбцам ввода, следуйте приведенным ниже инструкциям, чтобы просмотреть MOJO.

Обратите внимание на рисунок ниже, что числовые столбцы обрабатываются сравнением значений "меньше", а категориальные столбцы обрабатываются путем отправки некоторых уровней левому дочернему элементу, а других - правому дочернему элементу.

Другие вопросы по тегам