R - MLR - randomForestSRC - размер модели огромный, время предсказания очень медленное - как уменьшить оба?

Изучив классификацию randomForestSRC ( https://www.rdocumentation.org/packages/randomForestSRC/versions/2.6.0) с использованием MLR, размер модели составляет много ГБ, а время прогнозирования для каждого экземпляра чрезвычайно медленное.

Что мы можем вычеркнуть из модели, чтобы уменьшить размер и предположительно сократить время предсказания?

Обратите внимание, что некоторые тесты показывают, что прогнозирование 100 элементов в основном соответствует скорости прогнозирования 1.

**Prediction: 1 observations**
predict.type: prob
threshold: 0=0.50,1=0.50
**time: 70.25**

**Prediction: 100 observations**
predict.type: prob
threshold: 0=0.50,1=0.50
**time: 69.82**

https://kogalur.github.io/randomForestSRC/theory.html

2 ответа

Есть несколько параметров, которые можно настроить, чтобы уменьшить размер модели. Особенно:

  • уменьшить ntree для меньшего количества деревьев
  • увеличение nodesize для большего количества точек данных на лист
  • снижение nodedepth чтобы получить более мелкие деревья

Если вы не привязаны к этой конкретной реализации для леса классификации, вы можете попробовать использовать ranger ("classif.ranger").

Вы можете найти сравнение реализаций здесь: https://www.jstatsoft.org/article/view/v077i01

Другие вопросы по тегам