Описание тега hierarchical-clustering

Hierarchical clustering is a clustering technique that generates clusters at multiple hierarchical levels, thereby generating a tree of clusters. Hierarchical clustering provides advantages to analysts with its visualization potential.
1 ответ

Индекс Калински-Храбаша Ф для иерархической кластеризации

Как вычислить индекс Калински-Храбаса в R для иерархической кластеризации? Мне нужно, чтобы определить оптимальное количество кластеров.
1 ответ

Иерархическая кластеризация текста в масштабе

У меня есть большой набор данных (миллиарды записей), который почти полностью состоит из категориальных переменных. Эти данные будут использованы для прогнозирования довольно редкого численного результата. Большинство атрибутов имеют большую мощност…
1 ответ

r corrplot с кластеризацией: показатель различий по умолчанию для корреляционной матрицы

Я использовал пакет R corrplot визуализировать матрицу корреляции из моих данных. Я включил кластеризацию переменных, используя встроенную опцию hclust. Вызов команды был таким (плюс различные расположения заголовков, осей и т. Д.): corrplot(Rbas,ty…
0 ответов

Как определить индекс Данна с помощью пакета clValid в R?

Я пытаюсь воспроизвести результаты журнальной статьи, где авторы предложили алгоритм кластеризации и вычислили индекс Данна для получающегося кластера, используя clValid в R. Я смог скопировать кластер. Однако я не могу получить индекс Данна. У меня…
13 авг '18 в 00:23
2 ответа

Как сделать иерархическую кластеризацию для матрицы большого сходства

У меня есть около 50 тыс. Наборов данных, значение которых может находиться в диапазоне от 0 до 10. Я хочу применить HAC для кластеризации этих данных. Но чтобы применить HAC, мне нужно подготовить матрицу подобия N*N. Для N = 50K эта матрица будет …
1 ответ

Что на самом деле делает "слияние" применительно к дендрограммам в R?

У меня проблемы с пониманием того, что R функция merge точно при слиянии двух дендрограмм. Актуальный вопрос: Как получается высота узла (слияние двух деревьев)? Тот факт, что дендрограммы, построенные с помощью различных методов агломерации, также …
24 янв '16 в 11:09
0 ответов

Сравнительная оценка иерархических кластеров документов?

Я провожу эксперимент, в котором я создаю несколько иерархических кластеров документов. Каждая кластеризация будет представлена ​​в виде дерева кластеров, где каждый кластер представляет собой подмножество документов из исходного корпуса, и кластеры…
1 ответ

Как получить топ N часто встречающихся слов в каждом кластере? Sklearn

У меня есть текстовый корпус, который содержит более 1000 статей в каждой отдельной строке. Я использовал Hierarchy Clustering с использованием Sklearn в python для создания кластеров связанных статей. Это код, который я использовал для кластеризаци…
1 ответ

Сципи дендрограмма с именами

В своей работе я использую пример дендрограммы из этого поста, но также хотел бы отслеживать, какая строка / столбец принадлежит какой части данных. Я редактировал код с записями имен данных как names следующим образом и хотел бы распечатать имена в…
1 ответ

Почему hclust показывает инверсию здесь?

Вот три пункта и иерархическая кластеризация с использованием hclust в R методом "центроид". points <- data.frame(x = c(0, 1, 0.75), y = c(0, 0, 1)) centroid <- hclust(dist(points), method = "centroid") plot(centroid) Полученная дендрограмма к…
03 дек '18 в 22:20
1 ответ

Как проанализировать результат t-SNE(KMeans) в Python?

Я использовал t-SNE для кластеризации KMeans, но после получения результата t-SNE я не мог понять, как я могу связать это с моими исходными данными. Может ли кто-нибудь помочь мне понять результат, и что мне делать дальше, чтобы лучше понять результ…
0 ответов

Ошибка памяти при иерархической кластеризации Python 3.6

У меня достаточно большой набор данных (матрица 1841000*32), на котором я хочу запустить алгоритм иерархической кластеризации. И класс AgglomerativeClustering, и класс FeatureAgglomeration в sklearn.cluster выдают приведенную ниже ошибку. ----------…
0 ответов

Получить конкретные элементы из кластерных данных в R

Я генерирую это изображение, используя hclust функция. Теперь я перейду к идентификатору тех элементов, которые выделены квадратами. http://i59.tinypic.com/117u2ro.jpg Есть ли способ получить идентификатор и соответствующее значение из кластеризован…
15 май '15 в 13:02
1 ответ

R строит верхнюю дендрограмму на основе k

Я кластеризовал матрицу расстояний на основе данных столбца 20000 x 169 в R, используя hclust(). Когда я преобразовываю кластерный объект в дендрограмму и строю всю дендрограмму, ее трудно читать, потому что она очень большая, даже если я вывожу ее …
3 ответа

Python: связанные компоненты на сфере

Я бился головой об этом уже некоторое время. Моя проблема очень проста для объяснения: У меня есть данные, содержащие долготы и широты. Для простоты предположим, что это координаты городов. Я хочу разделить эти координаты города на группы, чтобы все…
07 апр '16 в 11:52
1 ответ

Алгоритмы кластеризации с R

Я на самом деле пытаюсь создать тепловую карту. Поэтому мне нужно найти подходящий метод кластеризации. Вот пример моего фрейма данных: df1 g1 g2 g3 g4 g5 g6 g7 g8 g9 g10 g11 1 1 1 0 0 3 4 4 0 0 6 0 2 0 0 2 2 0 0 0 0 0 0 8 3 0 0 0 0 0 0 0 2 2 0 0 4 …
28 фев '19 в 23:00
2 ответа

Как преобразовать текстовые файлы в формат.arff (weka)

Пожалуйста, посоветуйте мне, Как мне преобразовать текстовые файлы в формат.arff (weka), потому что я хочу сделать кластеризацию данных для 1000 текстовых файлов. С уважением
4 ответа

Иерархическая кластеризация микрочипов и PCA с питоном

Я пытаюсь проанализировать данные микрочипов, используя иерархическую кластеризацию столбцов микрочипов (результаты отдельных копий микрочипов) и PCA. Я новичок в питоне. У меня есть Python 2.7.3, biopyhton, numpy, matplotlib и networkx. Существуют …
0 ответов

Получение не-одиночных кластерных идентификаторов в скучной иерархической кластеризации

Согласно документации Scipy, мы можем получить идентификаторы кластеров для не-одноэлементных кластеров. Я задавал один и тот же вопрос о переполнении стека один раз. Но, похоже, это не лучшее решение, и я попробовал несколько. Тем не менее я не мог…
1 ответ

Как соотнести мои исходные данные с кластерными данными

У меня матрица расстояний представляет матрицу расстояний для попарных элементов, таких как A B C D ..... A n1 n2 n3 B n1 C n2 n4 D n3 n5 ....... E......... я ввел массив, как для кластеризации arry= [ 0 n1, n2, n3.. n1....... n2 n4 n3 n5 ] Y=sch.li…