Как интерпретировать коэффициент корреляции Мэтьюса (MCC) для несбалансированного набора данных

Я пытаюсь оценить производительность модели машинного обучения, которая была передана. Модель XGBoost была обучена на данных, которые имели дисбаланс классов 84% мажоритарного класса (метка 0) и 16% миноритарного класса (метка 1) без чрезмерной выборки класса меньшинства или недостаточной выборки класса большинства. Меня больше интересует класс меньшинства.

Я нашел эту статью: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5456046/ которая имитирует прогнозы с использованием 3 методов для проверки устойчивости различных метрик к несбалансированным данным. Точность и оценка f1 зависели от дисбаланса классов, тогда как AUC и MCC были устойчивыми (дали согласованные значения) при различных соотношениях дисбаланса классов в данных.

При поиске коэффициента корреляции Мэтьюса (MCC) большинство ответов, которые я нашел, связаны либо с тем, как рассчитать MCC, либо со значениями MCC, например, из Википедии, https://en.wikipedia.org/wiki/Matthews_correlation_coefficient:

  • +1 представляет собой идеальный прогноз
  • 0 не лучше случайного прогноза
  • -1 указывает на полное несоответствие между предсказанием и наблюдением

Однако я ищу большей ясности в отношении интерпретации коэффициента корреляции Мэтьюса, особенно в отношении несбалансированных данных.

У меня есть прогнозируемые вероятности из модели, поэтому я выбрал разные пороги классификации, а затем рассчитал MCC для прогнозируемых меток на каждом пороге вероятности. MCC варьируется в зависимости от порога классификации от 0,04 до 0,3. MCC увеличивается от примерно 0,04 при самом низком пороге классификации до примерно 0,3 при пороге вероятности 0,2 для классификации, а затем MCC уменьшается с увеличением порога вероятности.

А сейчас давайте просто посмотрим на MCC 0,3 с вероятностью 20%.

Что из этого будет правильным при интерпретации MCC (без учета дисбаланса данных)? Поскольку MCC рассчитывается в целом исходя из всех прогнозов:

  1. "классификатор / модель (при пороге классификации 20%) способен правильно классифицировать около 30% данных".
  2. "Классификатор / модель имеет около 30% прогнозирующей способности".

Если ни один из них не является правильным, уточните, добавив правильную интерпретацию.

Далее я ищу разъяснения о том, как интерпретировать MCC в отношении несбалансированных данных. Нужно ли корректировать свою интерпретацию того, насколько хорошо модель способна классифицировать данные?

Поскольку дисбаланс между классами составляет 16% для меньшинства, случайный шанс, скорее всего, может предсказать класс меньшинства примерно в 16% случаев. Нужно ли исправить это и сказать, что модель верна в своих прогнозах 30% (MCC) - 16% (дисбаланс классов) = 14% времени? Я не думаю, что это правильно, но мне нужно больше ясности в этом. (Мысленный процесс заключается в том, что если бы я вычислил точность и получил значение, скажем, 90%, я бы интерпретировал это как фактически только на 6% лучше, чем случайный шанс.)

Заранее спасибо за любые идеи.

0 ответов

Другие вопросы по тегам