Выбор размера выборки для несбалансированных данных для случайного леса в r
У меня большой набор данных (около 10000 строк), и я пытаюсь запустить классификационный случайный лес, который я намерен использовать для прогнозирования. Мои данные несбалансированы. Для исходной переменной я пытаюсь предсказать, что около 89% строк помечены как "1", а остаток - "0". Код, который я использую, выглядит следующим образом:
RFTry <-randomForest(as.factor(OutcomeVariable)~., data=df, importance=TRUE,
ntree=200, samplesize=c(500,500))
Я не уверен, какой размер сэмплирования мне следует использовать. Должен ли я выбирать одинаковое количество строк для каждой переменной результата или разные? И сколько образцов я должен взять? Ниже приведена таблица количества переменных в каждой.
> table(df$OutcomeVariable)
0 1
10228 1234
Спасибо!