Как интерпретировать коэффициент корреляции Мэтьюса (MCC) для несбалансированного набора данных
Я пытаюсь оценить производительность модели машинного обучения, которая была передана. Модель XGBoost была обучена на данных, которые имели дисбаланс классов 84% мажоритарного класса (метка 0) и 16% миноритарного класса (метка 1) без чрезмерной выборки класса меньшинства или недостаточной выборки класса большинства. Меня больше интересует класс меньшинства.
Я нашел эту статью: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5456046/ которая имитирует прогнозы с использованием 3 методов для проверки устойчивости различных метрик к несбалансированным данным. Точность и оценка f1 зависели от дисбаланса классов, тогда как AUC и MCC были устойчивыми (дали согласованные значения) при различных соотношениях дисбаланса классов в данных.
При поиске коэффициента корреляции Мэтьюса (MCC) большинство ответов, которые я нашел, связаны либо с тем, как рассчитать MCC, либо со значениями MCC, например, из Википедии, https://en.wikipedia.org/wiki/Matthews_correlation_coefficient:
- +1 представляет собой идеальный прогноз
- 0 не лучше случайного прогноза
- -1 указывает на полное несоответствие между предсказанием и наблюдением
Однако я ищу большей ясности в отношении интерпретации коэффициента корреляции Мэтьюса, особенно в отношении несбалансированных данных.
У меня есть прогнозируемые вероятности из модели, поэтому я выбрал разные пороги классификации, а затем рассчитал MCC для прогнозируемых меток на каждом пороге вероятности. MCC варьируется в зависимости от порога классификации от 0,04 до 0,3. MCC увеличивается от примерно 0,04 при самом низком пороге классификации до примерно 0,3 при пороге вероятности 0,2 для классификации, а затем MCC уменьшается с увеличением порога вероятности.
А сейчас давайте просто посмотрим на MCC 0,3 с вероятностью 20%.
Что из этого будет правильным при интерпретации MCC (без учета дисбаланса данных)? Поскольку MCC рассчитывается в целом исходя из всех прогнозов:
- "классификатор / модель (при пороге классификации 20%) способен правильно классифицировать около 30% данных".
- "Классификатор / модель имеет около 30% прогнозирующей способности".
Если ни один из них не является правильным, уточните, добавив правильную интерпретацию.
Далее я ищу разъяснения о том, как интерпретировать MCC в отношении несбалансированных данных. Нужно ли корректировать свою интерпретацию того, насколько хорошо модель способна классифицировать данные?
Поскольку дисбаланс между классами составляет 16% для меньшинства, случайный шанс, скорее всего, может предсказать класс меньшинства примерно в 16% случаев. Нужно ли исправить это и сказать, что модель верна в своих прогнозах 30% (MCC) - 16% (дисбаланс классов) = 14% времени? Я не думаю, что это правильно, но мне нужно больше ясности в этом. (Мысленный процесс заключается в том, что если бы я вычислил точность и получил значение, скажем, 90%, я бы интерпретировал это как фактически только на 6% лучше, чем случайный шанс.)
Заранее спасибо за любые идеи.