Отзыв и точность для мультиклассовой кластеризации

У меня есть трудности, чтобы понять, как измерить точность и вспомнить для мультиклассовой кластеризации. Вот пример с 9 элементами:

учитывая следующую основную истину:

A,B,C,D
E,F,G
H,I

и следующая наблюдаемая кластеризация:

A,B,C
D
E,F,G,H,I

Как рассчитать количество истинных положительных результатов (TP), ложных срабатываний (FP) и ложных отрицательных результатов (FN)?

Мой наивный подход состоял в том, чтобы рассмотреть все пары элементов:

TP = 7 (A-B, A-C, B-C, E-F, E-G, F-G, H-I)
FP = 6 (E-H, E-I, F-H, F-I, G-H, G-I)
FN = 3 (A-D, B-D, C-D)

Это правильный способ сделать это?

Спасибо

1 ответ

Решение

Да, TP и т. Д. Выглядят хорошо для меня на первый взгляд.

Но перечисление всех пар идет медленно.

Вы можете сделать лучше: вы можете напрямую рассчитать количество пар из таблицы кросс-табуляции.

Там должно быть ТП = 3 * 2/2 + 3 * 2/2 + 2 * 1/2 = 7

FN = 3 * 2/2 + 5 * 4/2-ТП = 13-7 = 6

FP = 4 * 3/2 + 3 * 2/2 + 2 * 1/2-ТП =10-7=3

и т.п.

Но тогда лучше рассчитать Скорректированный Индекс Рэнда (ARI). Поскольку вам нужен показатель, при котором случайный результат оценивается только близко к 0. С точностью и отзывом результаты, как правило, выглядят намного лучше, чем они есть.

Другие вопросы по тегам