Как установить срез при обучении данных в Random Forest в Spark
Я использую Spark Mlib для обучения данных для классификации с использованием алгоритма случайного леса. MLib предоставляет класс Random Forest, у которого есть метод trainClassifier, который выполняет требуемое.
Могу ли я установить пороговое значение во время тренировки набора данных, аналогично опции отсечения, предоставленной в пакете randomForest R.
http://cran.r-project.org/web/packages/randomForest/randomForest.pdf
Я обнаружил, что класс Random Forest MLib предоставляет опции только для передачи количества деревьев, примесей, количества классов и т. Д., Но нет ничего подобного пороговому или отсеченному варианту. Это может быть сделано любым способом.
1 ответ
Короткая версия нет, если мы посмотрим на RandomForestClassifier.scala
Вы можете видеть, что он всегда просто выбирает макс. Вы можете переопределить функцию предсказания, если, но она не супер чистая. Я добавил джира, чтобы отслеживать добавление этого.