Отзыв и точность для мультиклассовой кластеризации
У меня есть трудности, чтобы понять, как измерить точность и вспомнить для мультиклассовой кластеризации. Вот пример с 9 элементами:
учитывая следующую основную истину:
A,B,C,D
E,F,G
H,I
и следующая наблюдаемая кластеризация:
A,B,C
D
E,F,G,H,I
Как рассчитать количество истинных положительных результатов (TP), ложных срабатываний (FP) и ложных отрицательных результатов (FN)?
Мой наивный подход состоял в том, чтобы рассмотреть все пары элементов:
TP = 7 (A-B, A-C, B-C, E-F, E-G, F-G, H-I)
FP = 6 (E-H, E-I, F-H, F-I, G-H, G-I)
FN = 3 (A-D, B-D, C-D)
Это правильный способ сделать это?
Спасибо
1 ответ
Да, TP и т. Д. Выглядят хорошо для меня на первый взгляд.
Но перечисление всех пар идет медленно.
Вы можете сделать лучше: вы можете напрямую рассчитать количество пар из таблицы кросс-табуляции.
Там должно быть ТП = 3 * 2/2 + 3 * 2/2 + 2 * 1/2 = 7
FN = 3 * 2/2 + 5 * 4/2-ТП = 13-7 = 6
FP = 4 * 3/2 + 3 * 2/2 + 2 * 1/2-ТП =10-7=3
и т.п.
Но тогда лучше рассчитать Скорректированный Индекс Рэнда (ARI). Поскольку вам нужен показатель, при котором случайный результат оценивается только близко к 0. С точностью и отзывом результаты, как правило, выглядят намного лучше, чем они есть.