Описание тега random-forest

В алгоритмах обучения и статистической классификации случайный лес - это классификатор ансамбля, состоящий из множества деревьев решений. Он выводит класс, который является режимом классов, выводимых отдельными деревьями, другими словами, класс с самой высокой частотой.
2 ответа

Как построить случайные леса в R с отсутствующими (NA) значениями?

Я хотел бы соответствовать случайной модели леса, но когда я звоню library(randomForest) cars$speed[1] <- NA # to simulate missing value model <- randomForest(speed ~., data=cars) Я получаю следующую ошибку Error in na.fail.default(list(speed …
1 ответ

Обработка значений null/NaN в искровом классификаторе

У меня есть набор категориальных столбцов (строк), которые я анализирую и преобразую в векторы объектов, чтобы передать их в классификатор mllib (случайный лес). В моих входных данных некоторые столбцы имеют нулевые значения. Скажем, в одном из этих…
1 ответ

Как оценить модель в SAS с меньшим количеством переменных

У меня следующая проблема. Я создал случайный лес в SAS с 200 переменными. Теперь я хочу оценить новые наблюдения с помощью той же модели, но у меня есть только 50 переменных (важные!). Когда я запускаю счет, он вылетает и появляется следующее сообщ…
27 ноя '17 в 01:37
1 ответ

Что такое PermutedVarDeltaError в случайном лесу?

В MATLAB, TreeBagger класс предоставляет свойство PermutedVarDeltaError измерить значение переменной. Я прошел через предоставленное определение несколько раз: Для любой переменной мерой является увеличение ошибки прогнозирования, если values of tha…
22 июл '15 в 06:15
1 ответ

ПарРФ на карете не работает более чем на одно ядро

ParRF из пакета caret R не работает для меня с более чем одним ядром, что довольно иронично, учитывая, что par в parRF означает параллель. Я на машине с Windows, если это важная информация. Я проверил, что я использую последнюю версию, касающуюся ca…
16 июл '14 в 16:33
1 ответ

У меня есть несколько вопросов о распределенной модели случайного леса

Согласно документам H2O в FAQ раздела DRF, эта заметка упоминается в разделе "Как алгоритм обрабатывает пропущенные значения во время обучения?" ЧАСТО ЗАДАВАЕМЫЕ ВОПРОСЫ: Примечание: в отличие от GLM, в DRF числовые значения обрабатываются так же, к…
18 апр '18 в 09:13
0 ответов

Как работать с данными временных рядов при прогнозировании долгосрочной безработицы?

Так что я очень плохо знаком с R и наукой о данных и погрузился в настоящий проект. Я также никогда не работал с данными временных рядов - но я действительно хотел узнать кое-что, что, я надеюсь, благодаря этому:) Вопрос о населении и исследованиях.…
1 ответ

Как получить особенность важности лучшей модели от перекрестного валидатора в sparklyr?

Я могу тренировать случайный лесной крест валидатор в sparklyr но не могу найти способ получить значение функции для лучшей модели. Если я обучаю простую модель случайного леса, я могу использовать: fit <- ml_random_forest(...) feature_imp <- …
19 июн '18 в 11:03
1 ответ

Расчет выхода регрессии случайного леса

Привет, это чисто теоретический вопрос, который я не могу понять (и могу ошибаться) При случайной регрессии леса - вы выращиваете n деревьев, каждое дерево использует подмножество данных, а в некоторых случаях подмножество доступных переменных для п…
17 ноя '18 в 02:55
1 ответ

Случайный лес как лучший подход к этой проблеме?

Я изучаю ML и хочу попрактиковаться в построении модели для прогнозирования доходности фондового рынка на следующий день, например, на основе цены и объема предыдущих дней. Текущие значения у меня на каждый день: M = [[Price at day-1, price at day 0…
18 ноя '18 в 05:47
1 ответ

Вероятность выживания в определенные моменты времени с использованием randomForestSRC

Я использую rfsrc смоделировать проблему выживания, вот так: library(OIsurv) library(survival) library(randomForestSRC) data(burn) attach(burn) library(randomForestSRC) fit <- rfsrc(Surv(T1, D1) ~ ., data=burn) # predict on the train set pred &lt…
09 авг '15 в 12:37
0 ответов

Обработка факторов в классификации карет со случайным лесом

Я запускаю случайные леса из каретки в следующем коде: library(quantmod) library(Hmisc) library(caret) daysback=1 mlmodels=c("rf","knn") my.df <- getSymbols(Symbols = "^FTSE", auto.assign = FALSE) my.df=na.approx(my.df) difvar=100*(my.df[,4]-my.d…
1 ответ

Случайный лес xgboost с разреженными матричными данными и полиномиальным Y

Я не уверен, если xgboostМногие полезные функции могут быть объединены так, как мне нужно (?), но я пытаюсь запустить случайный лес с разреженными предикторами данных для зависимой от нескольких классов переменной. я знаю это xgboost может сделать л…
20 дек '15 в 15:37
0 ответов

Matlab TreeBagger Стоимость аргумента не работает, так как работает с аналогичной функцией fitensemble

Матрица стоимости моего класса TreeBagger и fitensemble (метод Bag) оба [0 8;1 0] для бинарной классификации. Матрица путаницы на fitensemble показывает, что классификация имеет тенденцию превращаться в пользу дорогостоящего класса (например, [100 0…
27 авг '12 в 11:01
1 ответ

Как построить фрейм данных для данных временных рядов, используя методы обучения ансамбля

Я пытаюсь предсказать цену Биткойна на t+5, то есть на 5 минут вперед, используя 11 технических индикаторов до момента времени t, которые все могут быть рассчитаны из значений открытия, максимума, минимума, закрытия и объема из временного ряда Битко…
0 ответов

Mlib RandomForest (Spark 2.0) предсказывает один вектор

После обучения RandomForestRegressor в PipelineModel с использованием mlib и DataFrame (Spark 2.0) я загрузил сохраненную модель в свою среду RT, чтобы прогнозировать, используя модель, каждый запрос обрабатывается и преобразуется через загруженную …
1 ответ

Вычисление индекса соответствия с рейнджером (пакет R)

Я пытаюсь использовать прогнозы из случайного леса выживания, рассчитанного с помощью Ranger, для вычисления индекса c в определенные моменты времени. Я знаю, что это легко сделать для модели coxph со следующим кодом: cox_model = coxph(Surv(time, st…
02 июн '18 в 01:35
1 ответ

Случайный лес не предсказывает нули

Я запускаю случайный лес на наборе данных, который содержит много нулей. Эти нули представляют подсчет чего-либо (или его отсутствие) и, следовательно, имеют смысл, в отличие от данных, которые могут быть классифицированы как "отсутствующие". Когда …
1 ответ

Почему предварительная обработка sklearn LabelEncoder inverse_transform применяется только из одного столбца?

У меня есть случайная модель леса, построенная из sklearn. Модель построена в одном файле, и у меня есть второй файл, где я использую joblib, чтобы загрузить модель и применить ее к новым данным. Данные имеют категориальные поля, которые преобразуют…
4 ответа

Размер подвыборки в scikit-learn RandomForestClassifier

Как можно контролировать размер подвыборки, используемой для обучения каждого дерева в лесу? Согласно документации Scikit-Learn: Случайный лес - это метаоценщик, который подходит к ряду классификаторов дерева решений для различных подвыборок набора …