Как узнать, какой строке матрицы соответствует каждая метка кластера?

После кластеризации я получаю объект, который хранит все метки кластера, что-то вроде этого:

clusterer.labels_

Выше, как правило, список или массив. Затем я всегда назначаю метки исходному кадру данных панд (набор данных) следующим образом:

df['cluster_lables] = cluster.labels_

В конце я предполагаю, что каждый элемент cluster.labels_ соответствует ли каждая строка моему исходному набору данных, это предположение верно? Например, из приведенного выше создания столбца я получаю что-то вроде этого:

ColA ColB cluster_labels
1    3       -1
2    4         2
...
89  90        45

1 ответ

В целом да, вы правы. Тип кластеризации, который я использовал ранее, это кластеризация KMeans (ее можно найти здесь https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html), но я не могу гарантировать, что они все работать так Добавление нового столбца на фрейм данных будет работать так, как вы думаете.

Другие вопросы по тегам