Можно ли использовать вес выборки при обучении Spark MLlib Random Forest?

Question

Можно ли использовать вес выборки при обучении Spark MLlib Random Forest?

Я использую алгоритм Spark 1.5.0 MLlib Random Forest (код scala) для двухклассовой классификации. Поскольку набор данных, который я использую, очень несбалансирован, поэтому класс большинства отбирается с частотой дискретизации 10%. Можно ли использовать вес выборки (в данном случае 10) в тренировке Spark Random Forest? Я не вижу веса среди входных параметров для trainClassifier() в случайном лесу. Я также выполнил поиск в stackru и не смог найти ни одного вопроса по этой теме. Большое спасибо за вашу помощь!

7

scala apache-spark random-forest apache-spark-mllib weight

Источник

user4949935 11 мар '16 в 20:35

1 ответ

Решение

Другие вопросы по тегам scala apache-spark random-forest apache-spark-mllib weight

user1489056 25 апр '16 в 15:27 2016-04-25 15:27 · Accepted Answer · 2016-04-25 15:27

Совсем нет в Spark 1.5 и только частично (Logistic/LinearRegression) в Spark 1.6

https://issues.apache.org/jira/browse/SPARK-7685

Вот зонтик JIRA, отслеживающий все подзадачи

https://issues.apache.org/jira/browse/SPARK-9610

2

Источник

user1489056 25 апр '16 в 15:27