Как узнать, какой строке матрицы соответствует каждая метка кластера?
После кластеризации я получаю объект, который хранит все метки кластера, что-то вроде этого:
clusterer.labels_
Выше, как правило, список или массив. Затем я всегда назначаю метки исходному кадру данных панд (набор данных) следующим образом:
df['cluster_lables] = cluster.labels_
В конце я предполагаю, что каждый элемент cluster.labels_
соответствует ли каждая строка моему исходному набору данных, это предположение верно? Например, из приведенного выше создания столбца я получаю что-то вроде этого:
ColA ColB cluster_labels
1 3 -1
2 4 2
...
89 90 45
1 ответ
В целом да, вы правы. Тип кластеризации, который я использовал ранее, это кластеризация KMeans (ее можно найти здесь https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html), но я не могу гарантировать, что они все работать так Добавление нового столбца на фрейм данных будет работать так, как вы думаете.