Какой метод вы используете для выбора оптимального количества кластеров в k-средних и EM?
Многие алгоритмы для кластеризации доступны. Популярным алгоритмом является K-средство, где на основе заданного количества кластеров алгоритм выполняет итерацию для нахождения наилучших кластеров для объектов.
Какой метод вы используете для определения количества кластеров в данных в кластеризации k-средних?
Содержит ли любой пакет, доступный в R, V-fold cross-validation
метод определения правильного количества кластеров?
Другим хорошо используемым подходом является алгоритм максимизации ожиданий (EM), который назначает распределение вероятностей каждому экземпляру, которое указывает вероятность его принадлежности каждому из кластеров.
Этот алгоритм реализован в R?
Если да, есть ли у него возможность автоматически выбирать оптимальное количество кластеров путем перекрестной проверки?
Вместо этого вы предпочитаете другой метод кластеризации?
2 ответа
Для больших "редких" наборов данных я бы серьезно рекомендовал метод "Распространение сродства". Он имеет превосходную производительность по сравнению с k средними и является детерминированным по своей природе.
http://www.psi.toronto.edu/affinitypropagation/ Опубликовано в журнале "Наука".
Однако выбор оптимального алгоритма кластеризации зависит от рассматриваемого набора данных. K Means - это метод из учебника, и вполне вероятно, что кто-то разработал лучший алгоритм, более подходящий для вашего типа набора данных /
Это хороший урок от профессора Эндрю Мура (CMU, Google) по средствам K и иерархической кластеризации. http://www.autonlab.org/tutorials/kmeans.html
На прошлой неделе я написал такой алгоритм оценки количества кластеров для программы кластеризации K-Means. Я использовал метод, изложенный в:
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.70.9687&rep=rep1&type=pdf
Моя самая большая проблема с реализацией заключалась в том, что мне нужно было найти подходящий индекс проверки кластера (т. Е. Показатель ошибки), который бы работал. Теперь это вопрос скорости обработки, но результаты в настоящее время выглядят разумно.