Коэффициент выборки для несбалансированного набора данных

У меня несбалансированный набор данных, который имеет два класса (+1,-1). Положительными являются только 7% набора данных.

Я хочу классифицировать, используя Деревья Desicion. Я попытался уменьшить негативы, чтобы:

  1. Одинаковый размер позитива
  2. Двойной или тройной размер позитива.

Для всех них я получил почти одинаковую точность, однако отзыв позитивов был намного лучше для первого образца (негативы того же размера, что и позитивы). Но я чувствую, что чего-то здесь не хватает, так что плохого в этой выборке?

1 ответ

Это довольно распространено, чтобы уменьшить доминирующий класс.

Но вы должны убедиться, что решили вашу актуальную проблему.

Если вы снизите выборку ваших классов до соотношения 1:1, которое может сделать определенные оценки хорошими, но отражает ли это реальность? Ваш классификатор обучен прогнозировать положительный результат в 50% случаев, но только 3% - положительный. Если "ложные срабатывания" стоят вам много денег, это может стать проблемой.

Другие вопросы по тегам