Любая теория информации помогает мне кластеризовать наборы данных без визуальной проверки?
Я хочу кластеризовать огромные наборы данных, но узким местом является настройка параметров без визуальной проверки.
Пример: K-means
Я не должен пытаться от 1 до N кластера, если у меня есть N образцов, верно? Это слишком грубая сила.
Но какой диапазон я должен попробовать? От 1 до N/4? или N/8? или коэффициент изменения уклона?
Другими словами, как определить количество кластеров, не проверяя точку локтя своими глазами?
Пример: DBSCAN
Следуйте здесь, выберите k-расстояние, но есть ли теория, которая поможет мне определить диапазон k?
Кто-то сказал, что использование k-nn для помощи DBSCAN, но k k-nn - сложная проблема. Как выбрать диапазон k?
Сверху хочу обратиться за помощью.
Кто-нибудь имеет опыт кластеризации наборов данных и поиска более близкой (не очень точной) точки для определения параметра без визуальной проверки?
1 ответ
Используйте метод локтя:
Вы выполняете k средних для k кластеров, вычисляете сумму расстояний каждой точки и центра кластера, которому она принадлежит. (атрибут инерции в Склеарне). Вы строите график для разных значений k, для некоторых значений k вы не увидите улучшений (это колено).