"Консенсус" среди максимальных энтропийных классификаций

Question

"Консенсус" среди максимальных энтропийных классификаций

Представьте, что у нас есть три класса: A, B и C, и мы классифицируем документ "d" с использованием стандартного классификатора MaxEnt и получаем следующие вероятности:

P(d, A) = 0.50
P(d, B) = 0.25
P(d, C) = 0.25

Я чувствую, что это сильно отличается от этого набора вероятностей:

P(d, A) = 0.50
P(d, B) = 0.49
P(d, C) = 0.01

Есть ли способ оценить разницу между этими двумя?

2

machine-learning nlp classification maxent

Источник

user1513331 08 дек '13 в 04:18

2 ответа

Решение

То, что вы ищете, это кросс-энтропия: в частности, вы хотите рассчитать стоимость аппроксимации истинного распределения с одним выходом по вашему классификатору. Вероятностные мультиклассовые классификаторы будут оптимизировать это напрямую во многих случаях. Посмотрите на это.

1

Источник

user1740708 09 дек '13 в 12:18

Другие вопросы по тегам machine-learning nlp classification maxent

user2658050 08 дек '13 в 14:57 2013-12-08 14:57 · Accepted Answer · 2013-12-08 14:57

Проблема, с которой вы сталкиваетесь, часто называется "консенсусом" среди классификаторов. Так как многолинейный MaxEnt можно рассматривать как N независимых классификаторов, вы можете рассматривать его как группу моделей, "голосующих" за разные классы.

В настоящее время существует множество мер для расчета такого "консенсуса", в том числе:

"наивный" расчет маржи - разница между вероятностью "победного" класса и второй - чем больше маржа - тем увереннее классификация
энтропия - чем меньше энтропия результирующего распределения вероятности, тем более уверенным является решение
некоторые дальнейшие методы, включающие расхождение KL и т. д.

В общем, вы должны подумать о методах обнаружения "однородности" полученного распределения (что подразумевает менее уверенное решение) или "пикантности" (что указывает на более уверенную классификацию).