Выбор размера выборки для несбалансированных данных для случайного леса в r

У меня большой набор данных (около 10000 строк), и я пытаюсь запустить классификационный случайный лес, который я намерен использовать для прогнозирования. Мои данные несбалансированы. Для исходной переменной я пытаюсь предсказать, что около 89% строк помечены как "1", а остаток - "0". Код, который я использую, выглядит следующим образом:

RFTry <-randomForest(as.factor(OutcomeVariable)~., data=df, importance=TRUE, 
ntree=200, samplesize=c(500,500))

Я не уверен, какой размер сэмплирования мне следует использовать. Должен ли я выбирать одинаковое количество строк для каждой переменной результата или разные? И сколько образцов я должен взять? Ниже приведена таблица количества переменных в каждой.

> table(df$OutcomeVariable)

    0     1 
10228  1234 

Спасибо!

0 ответов

Другие вопросы по тегам