Выбор входных значений для алгоритма DBSCAN
Я написал код на Python для реализации алгоритма кластеризации DBSCAN. Мой набор данных состоит из 14 тысяч пользователей, каждый из которых представлен 10 функциями. Я не могу решить, что именно оставить в качестве значения Min_samples и epsilon в качестве входных данных. Как мне решить это? Мера подобия - евклидово расстояние.(Следовательно, это становится еще более трудным, чтобы решить.) Любые указатели?
1 ответ
DBSCAN довольно часто трудно оценить его параметры.
Вы думали об алгоритме ОПТИКА? В этом случае вам нужны только Min_samples, которые соответствуют минимальному размеру кластера.
В противном случае для DBSCAN я делал это в прошлом методом проб и ошибок: попробуйте некоторые значения и посмотрите, что произойдет. Общее правило, которое следует соблюдать, состоит в том, что если ваш набор данных является зашумленным, у вас должно быть большее значение, и оно также коррелирует с количеством измерений (в данном случае 10).