Весовой ответ с размером выборки для несбалансированных данных в randomForest
Я новичок в машинном обучении и R.
Я попытался согласовать некоторые модели, включая деревья, повышенные деревья, случайные леса, повышение ада, svm и логистическую регрессию с R.
В моем случае вероятность того, что редкое событие (класс 1) происходит в данных обучения, составляет 0,0075.
При обучении деревьев и повышенных деревьев я добавил весовой параметр в модель, то есть весовой класс 0 с 1 и 1 класс с sqrt(1/0,0075). Это правильный способ сделать это?
У меня есть проблема со случайным лесом. Я искал сэмплирование, чтобы иметь дело с несбалансированными данными, подобными этим.
Однако я не совсем уверен, как придать вес каждому классу.
Я посмотрел здесь, и есть предложение уменьшить коэффициент дисбаланса вниз. Как выбрать правильный?
Кроме того, я не знаю, как включить веса в повышение Ада и логистической регрессии.