Как интерпретировать коэффициент силуэта от кластеризации K-Means?

Question

Как интерпретировать коэффициент силуэта от кластеризации K-Means?

Я практикую кластеризацию K-Means с использованием пакета sklearn. Я работаю с образцом набора данных о покупках, который состоит из того, сколько каждый клиент потратил в каждой категории товаров (например, продукты питания, мода, цифровые и т. Д.)

Есть 42 функции, то есть 42 категории элементов, которые я использовал для ввода в K-средства. Когда я проверил коэффициент силуэта для k между 2 - 50, результат выглядит так:

Результат

Для n_clusters = 2 Коэффициент Силуэт равен 0,296883351294
Для n_clusters = 3, Силуэт Силуэт 0,429716008727
Для n_clusters = 4 коэффициент силуэта равен 0,5379833453
Для n_clusters = 5 коэффициент силуэта равен 0,640200087198
Для n_clusters = 6 Коэффициент Силуэт равен 0,720988889121
Для n_clusters = 7 коэффициент силуэта равен 0,754509135746
Для n_clusters = 8 коэффициент силуэта равен 0,824498184042
Для n_clusters = 9 коэффициент силуэта равен 0,859505132529
Для n_clusters = 10, Коэффициент Силуэт 0,886719390512
Для n_clusters = 11 коэффициент силуэта равен 0,909094073152
Для n_clusters = 12, Коэффициент Силуэт 0,924484657787
Для n_clusters = 13, Коэффициент Силуэт 0,935920328988
Для n_clusters = 14, Силуэт Силуэт 0,941202266924
Для n_clusters = 15, Коэффициент Силуэт 0,944696312832
Для n_clusters = 16, Коэффициент Силуэт 0,94973283735
Для n_clusters = 17, Коэффициент Силуэт 0,953130541493
Для n_clusters = 18, Коэффициент Силуэт 0,956455183621
Для n_clusters = 19, Коэффициент Силуэт 0,959253033224
Для n_clusters = 20, Силуэт Силуэт 0,962360042108
Для n_clusters = 21, Силуэт Силуэт 0,964250208432
Для n_clusters = 22, Силуэт Силуэт 0,967326417612
Для n_clusters = 23, Коэффициент Силуэт 0,969331109452
Для n_clusters = 24, Силуэт Силуэт 0,971127562002
Для n_clusters = 25 коэффициент силуэта равен 0,972261973972
Для n_clusters = 26, Силуэт Силуэт 0,9734445716
Для n_clusters = 27, Коэффициент Силуэт 0,974238560202
Для n_clusters = 28, Силуэт Силуэт 0,97488260729
Для n_clusters = 29, Коэффициент Силуэт 0,97531193231
Для n_clusters = 30, Силуэт Силуэт 0,974524792419
Для n_clusters = 31, Силуэт Силуэт 0,975612314038
Для n_clusters = 32, Силуэт Силуэт 0,975737449165
Для n_clusters = 33, Коэффициент Силуэт 0,976396323376
Для n_clusters = 34 коэффициент силуэта равен 0,977655049988
Для n_clusters = 35, Коэффициент Силуэт 0,977653124893
Для n_clusters = 36, Коэффициент Силуэт 0,977692656935
Для n_clusters = 37, Силуэт Силуэт 0,977631627533
Для n_clusters = 38 коэффициент силуэта равен 0,978547753839
Для n_clusters = 39 коэффициент силуэта равен 0,978886776953
Для n_clusters = 40 коэффициент силуэта равен 0,979381767137
Для n_clusters = 41 коэффициент силуэта равен 0,9796349521
Для n_clusters = 42, Коэффициент Силуэт 0,979461929477
Для n_clusters = 43, Коэффициент Силуэт 0,980920963377
Для n_clusters = 44 коэффициент силуэта равен 0,980129624336
Для n_clusters = 45 коэффициент силуэта равен 0,981374785468
Для n_clusters = 46, Коэффициент Силуэт 0,980656482976
Для n_clusters = 47, Силуэт Силуэт 0,982323770297
Для n_clusters = 48, Силуэт Силуэт 0,982538183341
Для n_clusters = 49 коэффициент силуэта равен 0,982842003856

Я не знаю, как использовать этот результат. Мне кажется, с каждым днем я становлюсь больше. Я делаю это правильно? или я должен попробовать другой метод оценки кластера?

4

python scikit-learn k-means coefficients silhouette

Источник

user5214063 18 июн '17 в 03:03

1 ответ

Другие вопросы по тегам python scikit-learn k-means coefficients silhouette

user1144035 18 июн '17 в 03:10 2017-06-18 03:10 · Answer 1 · 2017-06-18 03:10

Силуэт точки показывает, насколько точка похожа на свой кластер по сравнению со следующим ближайшим кластером. Это отношение расстояний до центров кластеров, нормализованное так, что "1" идеально соответствует его кластеру, а "-1" - идеальное несоответствие.

(Примечание: использование кластерных центров может быть специфичным для кластеризации k-средних.)

Силуэт кластера - средний силуэт всех его членов. На практике это означает, что большее число означает, что кластер "отделен" от других кластеров.

Я думаю о силуэтах как об измерении плотности точек вдоль границы скопления. Когда силуэт высокий, у границы очень мало точек. Это то, что вы хотите - хорошо разделенные кластеры.

При использовании k-средних маленькие "внешние" кластеры обычно имеют большие силуэты. Часто более крупные кластеры имеют плотные границы. Вам было бы интересно взглянуть как на размер, так и на силуэт.