Описание тега random-forest

Описание тега Вопросы с тегом

В алгоритмах обучения и статистической классификации случайный лес - это классификатор ансамбля, состоящий из множества деревьев решений. Он выводит класс, который является режимом классов, выводимых отдельными деревьями, другими словами, класс с самой высокой частотой.

2 ответа

Как построить случайные леса в R с отсутствующими (NA) значениями?

Я хотел бы соответствовать случайной модели леса, но когда я звоню library(randomForest) cars$speed[1] <- NA # to simulate missing value model <- randomForest(speed ~., data=cars) Я получаю следующую ошибку Error in na.fail.default(list(speed …

r machine-learning random-forest na missing-data

03 дек '11 в 19:44

1 ответ

Обработка значений null/NaN в искровом классификаторе

У меня есть набор категориальных столбцов (строк), которые я анализирую и преобразую в векторы объектов, чтобы передать их в классификатор mllib (случайный лес). В моих входных данных некоторые столбцы имеют нулевые значения. Скажем, в одном из этих…

apache-spark classification random-forest apache-spark-mllib

07 окт '15 в 17:48

1 ответ

Как оценить модель в SAS с меньшим количеством переменных

У меня следующая проблема. Я создал случайный лес в SAS с 200 переменными. Теперь я хочу оценить новые наблюдения с помощью той же модели, но у меня есть только 50 переменных (важные!). Когда я запускаю счет, он вылетает и появляется следующее сообщ…

sas random-forest

27 ноя '17 в 01:37

1 ответ

Что такое PermutedVarDeltaError в случайном лесу?

В MATLAB, TreeBagger класс предоставляет свойство PermutedVarDeltaError измерить значение переменной. Я прошел через предоставленное определение несколько раз: Для любой переменной мерой является увеличение ошибки прогнозирования, если values of tha…

matlab random-forest

22 июл '15 в 06:15

1 ответ

ПарРФ на карете не работает более чем на одно ядро

ParRF из пакета caret R не работает для меня с более чем одним ядром, что довольно иронично, учитывая, что par в parRF означает параллель. Я на машине с Windows, если это важная информация. Я проверил, что я использую последнюю версию, касающуюся ca…

r parallel-processing random-forest r-caret

16 июл '14 в 16:33

1 ответ

У меня есть несколько вопросов о распределенной модели случайного леса

Согласно документам H2O в FAQ раздела DRF, эта заметка упоминается в разделе "Как алгоритм обрабатывает пропущенные значения во время обучения?" ЧАСТО ЗАДАВАЕМЫЕ ВОПРОСЫ: Примечание: в отличие от GLM, в DRF числовые значения обрабатываются так же, к…

python machine-learning random-forest h2o

18 апр '18 в 09:13

0 ответов

Как работать с данными временных рядов при прогнозировании долгосрочной безработицы?

Так что я очень плохо знаком с R и наукой о данных и погрузился в настоящий проект. Я также никогда не работал с данными временных рядов - но я действительно хотел узнать кое-что, что, я надеюсь, благодаря этому:) Вопрос о населении и исследованиях.…

r time-series classification random-forest prediction

06 июн '18 в 09:21

1 ответ

Как получить особенность важности лучшей модели от перекрестного валидатора в sparklyr?

Я могу тренировать случайный лесной крест валидатор в sparklyr но не могу найти способ получить значение функции для лучшей модели. Если я обучаю простую модель случайного леса, я могу использовать: fit <- ml_random_forest(...) feature_imp <- …

r random-forest sparklyr

19 июн '18 в 11:03

1 ответ

Расчет выхода регрессии случайного леса

Привет, это чисто теоретический вопрос, который я не могу понять (и могу ошибаться) При случайной регрессии леса - вы выращиваете n деревьев, каждое дерево использует подмножество данных, а в некоторых случаях подмножество доступных переменных для п…

r random-forest

17 ноя '18 в 02:55

1 ответ

Случайный лес как лучший подход к этой проблеме?

Я изучаю ML и хочу попрактиковаться в построении модели для прогнозирования доходности фондового рынка на следующий день, например, на основе цены и объема предыдущих дней. Текущие значения у меня на каждый день: M = [[Price at day-1, price at day 0…

machine-learning regression random-forest

18 ноя '18 в 05:47

1 ответ

Вероятность выживания в определенные моменты времени с использованием randomForestSRC

Я использую rfsrc смоделировать проблему выживания, вот так: library(OIsurv) library(survival) library(randomForestSRC) data(burn) attach(burn) library(randomForestSRC) fit <- rfsrc(Surv(T1, D1) ~ ., data=burn) # predict on the train set pred &lt…

r random-forest survival-analysis

09 авг '15 в 12:37

0 ответов

Обработка факторов в классификации карет со случайным лесом

Я запускаю случайные леса из каретки в следующем коде: library(quantmod) library(Hmisc) library(caret) daysback=1 mlmodels=c("rf","knn") my.df <- getSymbols(Symbols = "^FTSE", auto.assign = FALSE) my.df=na.approx(my.df) difvar=100*(my.df[,4]-my.d…

r machine-learning random-forest prediction r-caret

24 май '18 в 15:01

1 ответ

Случайный лес xgboost с разреженными матричными данными и полиномиальным Y

Я не уверен, если xgboostМногие полезные функции могут быть объединены так, как мне нужно (?), но я пытаюсь запустить случайный лес с разреженными предикторами данных для зависимой от нескольких классов переменной. я знаю это xgboost может сделать л…

r sparse-matrix random-forest xgboost

20 дек '15 в 15:37

0 ответов

Matlab TreeBagger Стоимость аргумента не работает, так как работает с аналогичной функцией fitensemble

Матрица стоимости моего класса TreeBagger и fitensemble (метод Bag) оба [0 8;1 0] для бинарной классификации. Матрица путаницы на fitensemble показывает, что классификация имеет тенденцию превращаться в пользу дорогостоящего класса (например, [100 0…

matlab classification random-forest

27 авг '12 в 11:01

1 ответ

Как построить фрейм данных для данных временных рядов, используя методы обучения ансамбля

Я пытаюсь предсказать цену Биткойна на t+5, то есть на 5 минут вперед, используя 11 технических индикаторов до момента времени t, которые все могут быть рассчитаны из значений открытия, максимума, минимума, закрытия и объема из временного ряда Битко…

r dataframe time-series random-forest ensemble-learning

30 июл '18 в 09:53

0 ответов

Mlib RandomForest (Spark 2.0) предсказывает один вектор

После обучения RandomForestRegressor в PipelineModel с использованием mlib и DataFrame (Spark 2.0) я загрузил сохраненную модель в свою среду RT, чтобы прогнозировать, используя модель, каждый запрос обрабатывается и преобразуется через загруженную …

apache-spark machine-learning random random-forest

02 авг '16 в 12:48

1 ответ

Вычисление индекса соответствия с рейнджером (пакет R)

Я пытаюсь использовать прогнозы из случайного леса выживания, рассчитанного с помощью Ranger, для вычисления индекса c в определенные моменты времени. Я знаю, что это легко сделать для модели coxph со следующим кодом: cox_model = coxph(Surv(time, st…

r random-forest survival-analysis ranger

02 июн '18 в 01:35

1 ответ

Случайный лес не предсказывает нули

Я запускаю случайный лес на наборе данных, который содержит много нулей. Эти нули представляют подсчет чего-либо (или его отсутствие) и, следовательно, имеют смысл, в отличие от данных, которые могут быть классифицированы как "отсутствующие". Когда …

python random-forest missing-data prediction zero

14 сен '18 в 13:43

1 ответ

Почему предварительная обработка sklearn LabelEncoder inverse_transform применяется только из одного столбца?

У меня есть случайная модель леса, построенная из sklearn. Модель построена в одном файле, и у меня есть второй файл, где я использую joblib, чтобы загрузить модель и применить ее к новым данным. Данные имеют категориальные поля, которые преобразуют…

python python-3.x pandas scikit-learn random-forest

30 мар '17 в 20:47

4 ответа

Размер подвыборки в scikit-learn RandomForestClassifier

Как можно контролировать размер подвыборки, используемой для обучения каждого дерева в лесу? Согласно документации Scikit-Learn: Случайный лес - это метаоценщик, который подходит к ряду классификаторов дерева решений для различных подвыборок набора …

machine-learning scikit-learn data-science random-forest

28 ноя '16 в 15:19