Минимальное количество наблюдений при выполнении Random Forest

Можно ли применить RandomForests к очень маленьким наборам данных? У меня есть набор данных со многими переменными, но по 25 наблюдений. Случайные леса дают разумные результаты с низкими ошибками OOB (10-25%). Есть ли эмпирическое правило относительно минимального количества наблюдений для использования? Фактически, одна из переменных отклика является несбалансированной, и если я собираюсь выполнить ее выборку, я получу еще меньшее количество наблюдений. заранее спасибо

1 ответ

Решение

Абсолютно RF может использоваться для этих типов наборов данных (то есть p>n). На самом деле они используют RF в таких областях, как геномика, где количество полей>= 20000, а количество строк очень мало - скажем, 10-12. Вся проблема состоит в том, чтобы выяснить, какая из переменных в 20 тысячах будет составлять скупой маркер (то есть выбор функции - это вся проблема).

У меня нет ROT относительно минимального размера, за исключением того, что если ваша модель не работает хорошо на сдержанной выборке (или перекрестная проверка Hold-One-Back может хорошо работать в вашем случае), то вам следует попробовать что-то другое.

Надеюсь это поможет

Другие вопросы по тегам