Выбор входных значений для алгоритма DBSCAN

Question

Выбор входных значений для алгоритма DBSCAN

Я написал код на Python для реализации алгоритма кластеризации DBSCAN. Мой набор данных состоит из 14 тысяч пользователей, каждый из которых представлен 10 функциями. Я не могу решить, что именно оставить в качестве значения Min_samples и epsilon в качестве входных данных. Как мне решить это? Мера подобия - евклидово расстояние.(Следовательно, это становится еще более трудным, чтобы решить.) Любые указатели?

0

python cluster-analysis dbscan

Источник

user961907 14 апр '12 в 17:04

1 ответ

Другие вопросы по тегам python cluster-analysis dbscan

user1332690 14 апр '12 в 17:15 2012-04-14 17:15 · Answer 1 · 2012-04-14 17:15

DBSCAN довольно часто трудно оценить его параметры.

Вы думали об алгоритме ОПТИКА? В этом случае вам нужны только Min_samples, которые соответствуют минимальному размеру кластера.

В противном случае для DBSCAN я делал это в прошлом методом проб и ошибок: попробуйте некоторые значения и посмотрите, что произойдет. Общее правило, которое следует соблюдать, состоит в том, что если ваш набор данных является зашумленным, у вас должно быть большее значение, и оно также коррелирует с количеством измерений (в данном случае 10).