Включает ли радиус эпсилон в алгоритмы DBSCAN/OPTICS?

Оригинальная статья и другие ресурсы (википедия) всегда определяют основной объект в зависимости от радиуса ε (должно быть больше, чем MinPts соседей) используя выражения как внутри или до. Это оставляет место для интерпретации, является ли этот радиус включающим или нет: является ли объект q соседом p, если расстояние (p, q) точно ε?

Это, очевидно, очень важно, так как все определения основаны на этом...

2 ответа

Решение

Определение в исходной статье dbscan для окрестности является dist(p, q) <= eps. Однако большинство реализаций будет использовать любой запрос диапазона, поддерживаемый индексом базы данных. В большинстве случаев это не будет иметь значения, и OmG прав, что добавление наименьшего представимого числа к eps эффективно изменит <на <=.

Я думаю, что это вообще не важно. Так как существуют разные методы определения стоимости epsilon и ни один из них не является таким точным, а также это зависит от структуры данных, которые вы кластеризуете.

Более того, если вы измените значение epsilon чуть больше, чем точность языка разработки на указанной работающей машине, эта проблема может быть решена и они вовсе не являются их соседями! Следовательно, из-за чувствительности этой проблемы к точности этой машины означает, что она не может играть жизненно важную роль в вашем конечном результате в большинстве общих случаев.

Другие вопросы по тегам