Расчет выхода регрессии случайного леса

Привет, это чисто теоретический вопрос, который я не могу понять (и могу ошибаться)

При случайной регрессии леса - вы выращиваете n деревьев, каждое дерево использует подмножество данных, а в некоторых случаях подмножество доступных переменных для прогнозирования зависимой переменной. среднее из этих n деревьев берется, чтобы дать нам прогнозируемое значение. Однако нужно ли рассматривать распределение прогнозов на уровне отдельных деревьев? Можем ли мы получить число, которое обеспечивает некоторую определенность общего прогнозируемого значения? я предположил бы, что более последовательное число, производимое на уровне отдельного дерева, будет предпочтительнее, чем большое количество чисел?

заранее спасибо

1 ответ

Этот метод определения важности переменной имеет некоторые недостатки. Для данных, включающих в себя категориальные переменные с различным количеством уровней, случайные леса смещаются в пользу тех атрибутов с большим количеством уровней. Такие методы, как частичные перестановки и выращивание беспристрастных деревьев, могут быть использованы для решения проблемы. Если данные содержат группы коррелированных признаков схожей релевантности для выходных данных, тогда более мелкие группы предпочтительнее более крупных групп.

Другие вопросы по тегам