Любая теория информации помогает мне кластеризовать наборы данных без визуальной проверки?

Я хочу кластеризовать огромные наборы данных, но узким местом является настройка параметров без визуальной проверки.

Пример: K-means

Я не должен пытаться от 1 до N кластера, если у меня есть N образцов, верно? Это слишком грубая сила.

Но какой диапазон я должен попробовать? От 1 до N/4? или N/8? или коэффициент изменения уклона?

Другими словами, как определить количество кластеров, не проверяя точку локтя своими глазами?

Пример: DBSCAN

Следуйте здесь, выберите k-расстояние, но есть ли теория, которая поможет мне определить диапазон k?

Кто-то сказал, что использование k-nn для помощи DBSCAN, но k k-nn - сложная проблема. Как выбрать диапазон k?

Сверху хочу обратиться за помощью.

Кто-нибудь имеет опыт кластеризации наборов данных и поиска более близкой (не очень точной) точки для определения параметра без визуальной проверки?

1 ответ

Используйте метод локтя:

Вы выполняете k средних для k кластеров, вычисляете сумму расстояний каждой точки и центра кластера, которому она принадлежит. (атрибут инерции в Склеарне). Вы строите график для разных значений k, для некоторых значений k вы не увидите улучшений (это колено).

Метод локтя

Другие вопросы по тегам