Обнаружение аномалий с кластеризацией?

Согласно лекции Эндрю Нга, один из алгоритмов обнаружения аномалий заключается в использовании многомерного гауссиана для построения плотности вероятности.

Что если данные показывают кластерные структуры (не один блок)? В этом случае мы прибегаем к неконтролируемой кластеризации для построения плотности? Если да, то как это сделать? Существуют ли другие систематические способы выяснить, существует ли такой случай?

1 ответ

Решение

Вы можете просто использовать обычные GMM и использовать пороговое значение для вероятности выявления выбросов. Точки, которые не соответствуют модели, являются выбросами.

Это работает нормально, если ваши данные действительно состоят из гауссиан.

Кроме того, кластеризация довольно дорогая. Обычно будет быстрее напрямую использовать непараметрическую модель выбросов, такую ​​как KNN, LOF или LOOP.

Другие вопросы по тегам