Можно ли использовать вес выборки при обучении Spark MLlib Random Forest?
Я использую алгоритм Spark 1.5.0 MLlib Random Forest (код scala) для двухклассовой классификации. Поскольку набор данных, который я использую, очень несбалансирован, поэтому класс большинства отбирается с частотой дискретизации 10%. Можно ли использовать вес выборки (в данном случае 10) в тренировке Spark Random Forest? Я не вижу веса среди входных параметров для trainClassifier()
в случайном лесу. Я также выполнил поиск в stackru и не смог найти ни одного вопроса по этой теме. Большое спасибо за вашу помощь!
1 ответ
Решение
Совсем нет в Spark 1.5 и только частично (Logistic/LinearRegression) в Spark 1.6
https://issues.apache.org/jira/browse/SPARK-7685
Вот зонтик JIRA, отслеживающий все подзадачи