Как объяснить замену передискретизации исключительно хорошими или идеальными результатами?
У меня есть чрезвычайно несбалансированные данные (100:1), где 1 часть - это мой заинтересованный (меньшинство) класс. Я слышал о том, что передискретизация (среди прочих методов) является способом "обработки" несбалансированных данных. Итак, я сделал выборочную проверку класса меньшинства путем повторной выборки с заменой до определенного соотношения (скажем, 2:1).
Затем я разделил этот вновь сформированный (пере) образец на тренировочный и тестовый набор, и производительность значительно возросла от точности, напомним, F1 от 0,7, 0,4, 0,5 до 0,97, 0,97, 0,97.
Я делаю что-то не так, потому что это кажется слишком хорошим, чтобы быть правдой? Должен ли я сохранить исходный дистрибутив для тестового набора и вместо этого переизбрать класс меньшинства в моем обучающем наборе?
1 ответ
Если я понял, как вы строите свои наборы, то вполне вероятно, что почти все "интересные" моменты в вашем тестовом наборе также находятся в тренировочном наборе. Ваша модель, вероятно, переоснащается и учится регургитировать учебные данные точно, не обязательно обобщая, и у вас нет возможности обнаружить это, потому что вы не проверяете модель, используя данные извне обучающего набора. Разделение данных на обучение и тестирование перед применением передискретизации должно предотвратить это.