DBSCAN против OPTICS для автоматической кластеризации

Я знаю, что для DBSCAN требуются два параметра (minPts и Eps). Однако я не совсем понимаю, какие параметры нужны для OPTICS, потому что некоторые источники говорят, что для этого требуется eps, а другие говорят, что для этого нужны только minPts.

Какой алгоритм будет лучше использовать, если я пытаюсь автоматически определить значения параметров, которые лучше всего отбрасывают выбросы?

2 ответа

Решение

Согласно оригинальной статье, требуются как minPts, так и Eps. Те источники, которые говорят, что Eps не требуется, вероятно, используют какой-то метод, чтобы автоматически определить хорошее значение для него. Тем не менее, Eps включена только для сокращения времени выполнения алгоритма. Это не обязательно.

Что касается того, что лучше всего для удаления выбросов, то нет лучшего способа, чем подтвердить свое решение числами: взять набор данных и обозначить его выбросы, а затем запустить оба алгоритма против него. Используйте какое-либо измерение производительности для кластеров (AUC, F-оценка и т. Д.), Чтобы выбрать лучшее.

ОПТИКА может быть запущена с eps = бесконечность. Но тогда это O (n ^ 2) сложность. (Предполагая, что у вас есть реализация, которая на самом деле использует индексы для ускорения.)

Но у OPTICS нет такой четкой концепции шума, как у DBSCAN. Самое близкое, что вы можете получить, - это взять верхний уровень иерархии кластера (то есть полный набор данных) минус все, что находится в кластере ниже. Но, учитывая иерархическую кластеризацию, вы можете иметь "шум" на нескольких уровнях в иерархии, поэтому концепция шума здесь больше не работает.

Таким образом, есть несколько отличий:

Стоимость памяти: метод кластеризации OPTICS требует больше памяти, поскольку он поддерживает приоритетную очередь (Min Heap) для определения следующей точки данных, которая является ближайшей к точке, обрабатываемой в настоящее время, с точки зрения расстояния достижимости. Это также требует большей вычислительной мощности, поскольку запросы ближайшего соседа сложнее, чем запросы радиуса в DBSCAN.

Меньшее количество параметров: метод кластеризации OPTICS не требует поддержки параметра epsilon и приводится только в приведенном выше псевдокоде, чтобы сократить затрачиваемое время. Это приводит к сокращению аналитического процесса настройки параметров.

ОПТИКА не разделяет данные на кластеры. Он просто создает график расстояния достижимости, и программист должен соответствующим образом сгруппировать точки.

ОПТИКА относительно нечувствительна к настройкам параметров. Хороший результат, если параметры просто "достаточно большие".

Для получения более подробной информации вы можете обратиться к

https://medium.com/@xzz201920/optics-d80b41fd042a для оптики

https://medium.com/@xzz201920/dbscan-e1e50128074c для сканирования dbscan

Другие вопросы по тегам