Вероятность прогнозирования LogisticRegression

В настоящее время я использую LogisticRegression от scikit-learn в проблеме многоклассовой категоризации. Я решил использовать LogisticRegression, так как прочитал пару статей, описывающих его как хорошо откалиброванный алгоритм с точки зрения вероятности предсказания, которое он возвращает.

Для каждого результата классификатора я проверяю его вероятность прогнозирования, а также расстояние между классифицированным наблюдением и остальными примерами в обучающем наборе с тем же классом решения.

Я удивлен, что для некоторых результатов, даже если класс был предсказан с доверительной вероятностью более 90%, мера косинусного сходства предполагает, что данный пример в среднем почти ортогональн к набору примеров с тем же классом в обучении задавать.

Может ли кто-нибудь дать некоторую подсказку, почему такое несоответствие может наблюдаться?

Я ожидаю, что для примеров, которые существенно отличаются от остальных наблюдений с тем же классом, алгоритм LogisticRegression будет возвращать низкие вероятности предсказания.

1 ответ

Решение

Логистическая регрессия / классификация даст результаты в отношении границы решения, но нет гарантии, что точки на одной и той же стороне границы (т. Е. Принадлежащие к одному и тому же классу) будут иметь небольшие косинусные расстояния (или даже малые евклидовы расстояния).

Рассмотрим точки на плоскости xy, где все точки ниже y=0 принадлежат одному классу, а все точки выше принадлежат другому классу. Точки (-1000, 1) и (1000, 1) принадлежат к одному классу, но имеют относительно большое косинусное расстояние между ними. С другой стороны, точки (1000, 1) и (1000, -1) принадлежат разным классам, но имеют очень маленькое косинусное расстояние.

Другие вопросы по тегам