Коэффициент выборки для несбалансированного набора данных
У меня несбалансированный набор данных, который имеет два класса (+1
,-1
). Положительными являются только 7% набора данных.
Я хочу классифицировать, используя Деревья Desicion. Я попытался уменьшить негативы, чтобы:
- Одинаковый размер позитива
- Двойной или тройной размер позитива.
Для всех них я получил почти одинаковую точность, однако отзыв позитивов был намного лучше для первого образца (негативы того же размера, что и позитивы). Но я чувствую, что чего-то здесь не хватает, так что плохого в этой выборке?
1 ответ
Это довольно распространено, чтобы уменьшить доминирующий класс.
Но вы должны убедиться, что решили вашу актуальную проблему.
Если вы снизите выборку ваших классов до соотношения 1:1, которое может сделать определенные оценки хорошими, но отражает ли это реальность? Ваш классификатор обучен прогнозировать положительный результат в 50% случаев, но только 3% - положительный. Если "ложные срабатывания" стоят вам много денег, это может стать проблемой.