Расчет выхода регрессии случайного леса
Привет, это чисто теоретический вопрос, который я не могу понять (и могу ошибаться)
При случайной регрессии леса - вы выращиваете n деревьев, каждое дерево использует подмножество данных, а в некоторых случаях подмножество доступных переменных для прогнозирования зависимой переменной. среднее из этих n деревьев берется, чтобы дать нам прогнозируемое значение. Однако нужно ли рассматривать распределение прогнозов на уровне отдельных деревьев? Можем ли мы получить число, которое обеспечивает некоторую определенность общего прогнозируемого значения? я предположил бы, что более последовательное число, производимое на уровне отдельного дерева, будет предпочтительнее, чем большое количество чисел?
заранее спасибо
1 ответ
Этот метод определения важности переменной имеет некоторые недостатки. Для данных, включающих в себя категориальные переменные с различным количеством уровней, случайные леса смещаются в пользу тех атрибутов с большим количеством уровней. Такие методы, как частичные перестановки и выращивание беспристрастных деревьев, могут быть использованы для решения проблемы. Если данные содержат группы коррелированных признаков схожей релевантности для выходных данных, тогда более мелкие группы предпочтительнее более крупных групп.