R - MLR - randomForestSRC - размер модели огромный, время предсказания очень медленное - как уменьшить оба?
Изучив классификацию randomForestSRC ( https://www.rdocumentation.org/packages/randomForestSRC/versions/2.6.0) с использованием MLR, размер модели составляет много ГБ, а время прогнозирования для каждого экземпляра чрезвычайно медленное.
Что мы можем вычеркнуть из модели, чтобы уменьшить размер и предположительно сократить время предсказания?
Обратите внимание, что некоторые тесты показывают, что прогнозирование 100 элементов в основном соответствует скорости прогнозирования 1.
**Prediction: 1 observations**
predict.type: prob
threshold: 0=0.50,1=0.50
**time: 70.25**
**Prediction: 100 observations**
predict.type: prob
threshold: 0=0.50,1=0.50
**time: 69.82**
2 ответа
Есть несколько параметров, которые можно настроить, чтобы уменьшить размер модели. Особенно:
- уменьшить
ntree
для меньшего количества деревьев - увеличение
nodesize
для большего количества точек данных на лист - снижение
nodedepth
чтобы получить более мелкие деревья
Если вы не привязаны к этой конкретной реализации для леса классификации, вы можете попробовать использовать ranger ("classif.ranger").
Вы можете найти сравнение реализаций здесь: https://www.jstatsoft.org/article/view/v077i01