Как сгруппировать набор точек с учетом расстояний между ними?
У меня есть набор точек данных, которые похожи по форме. Их сходство колеблется от 0 до 1. Я хотел бы сгруппировать эти точки данных на основе их сходства. Ниже приведен пример имеющихся у меня данных:
("a", "b", 0.5) <-
("a", "c", 0.2)
("c", "f", 0.7)
("b", "i", 0.8) <-
("r", "s", 0.3)
("y", "f", 0.9)
("a", "e", 0.6) <-
Следовательно, есть ли способ сгруппировать эти точки данных? так что я попадаю ("a", "b", "e", "i") в один и тот же кластер.
Наконец, каждая буква представляет собой уникальный код продукта. У меня есть показатели продаж для каждого продукта за год. Цифры выше представляют их коэффициент корреляции.
Обратите внимание, что здесь у нас не может быть центра для какого-либо данного кластера, и кластер должен представлять точки данных, которые имеют высокую корреляцию между собой.
---------------------- ИЗМЕНИТЬ ---------------------
Проведя небольшое исследование, я понял, что могу использовать FeatureAgglomeration
из склеарна. Кроме того, мой исходный набор данных - это фреймворк, где индекс - это номер недели, столбцы - это уникальные коды продуктов, а значения - их измерения продаж.
Следовательно, я могу подать заявку FeatureAgglomeration
в кластерные функции (т. е. мои уникальные коды продуктов)?
Любая помощь высоко ценится!