Хорошая кривая ROC, но плохая кривая точности-отзыва
У меня есть некоторые результаты машинного обучения, которые я не совсем понимаю. Я использую Python Sciki-Learn, с более чем 2 миллионами данных о 14 функциях. Классификация "ab" выглядит довольно плохо на кривой точного отзыва, но ROC для Ab выглядит так же хорошо, как и классификация большинства других групп. Чем это можно объяснить?
1 ответ
Решение
Классовый дисбаланс.
В отличие от кривой ROC, кривые PR очень чувствительны к дисбалансу. Если вы оптимизируете свой классификатор для хорошего AUC на несбалансированных данных, вы, вероятно, получите плохие результаты повторного вызова.