Можно ли использовать вес выборки при обучении Spark MLlib Random Forest?

Я использую алгоритм Spark 1.5.0 MLlib Random Forest (код scala) для двухклассовой классификации. Поскольку набор данных, который я использую, очень несбалансирован, поэтому класс большинства отбирается с частотой дискретизации 10%. Можно ли использовать вес выборки (в данном случае 10) в тренировке Spark Random Forest? Я не вижу веса среди входных параметров для trainClassifier() в случайном лесу. Я также выполнил поиск в stackru и не смог найти ни одного вопроса по этой теме. Большое спасибо за вашу помощь!

1 ответ

Решение

Совсем нет в Spark 1.5 и только частично (Logistic/LinearRegression) в Spark 1.6

https://issues.apache.org/jira/browse/SPARK-7685

Вот зонтик JIRA, отслеживающий все подзадачи

https://issues.apache.org/jira/browse/SPARK-9610

Другие вопросы по тегам