Описание тега hierarchical-clustering
Hierarchical clustering is a clustering technique that generates clusters at multiple hierarchical levels, thereby generating a tree of clusters. Hierarchical clustering provides advantages to analysts with its visualization potential.
1
ответ
Индекс Калински-Храбаша Ф для иерархической кластеризации
Как вычислить индекс Калински-Храбаса в R для иерархической кластеризации? Мне нужно, чтобы определить оптимальное количество кластеров.
07 июл '18 в 08:37
1
ответ
Иерархическая кластеризация текста в масштабе
У меня есть большой набор данных (миллиарды записей), который почти полностью состоит из категориальных переменных. Эти данные будут использованы для прогнозирования довольно редкого численного результата. Большинство атрибутов имеют большую мощност…
25 июн '15 в 17:42
1
ответ
r corrplot с кластеризацией: показатель различий по умолчанию для корреляционной матрицы
Я использовал пакет R corrplot визуализировать матрицу корреляции из моих данных. Я включил кластеризацию переменных, используя встроенную опцию hclust. Вызов команды был таким (плюс различные расположения заголовков, осей и т. Д.): corrplot(Rbas,ty…
26 авг '17 в 14:01
0
ответов
Как определить индекс Данна с помощью пакета clValid в R?
Я пытаюсь воспроизвести результаты журнальной статьи, где авторы предложили алгоритм кластеризации и вычислили индекс Данна для получающегося кластера, используя clValid в R. Я смог скопировать кластер. Однако я не могу получить индекс Данна. У меня…
13 авг '18 в 00:23
2
ответа
Как сделать иерархическую кластеризацию для матрицы большого сходства
У меня есть около 50 тыс. Наборов данных, значение которых может находиться в диапазоне от 0 до 10. Я хочу применить HAC для кластеризации этих данных. Но чтобы применить HAC, мне нужно подготовить матрицу подобия N*N. Для N = 50K эта матрица будет …
27 июл '15 в 14:28
1
ответ
Что на самом деле делает "слияние" применительно к дендрограммам в R?
У меня проблемы с пониманием того, что R функция merge точно при слиянии двух дендрограмм. Актуальный вопрос: Как получается высота узла (слияние двух деревьев)? Тот факт, что дендрограммы, построенные с помощью различных методов агломерации, также …
24 янв '16 в 11:09
0
ответов
Сравнительная оценка иерархических кластеров документов?
Я провожу эксперимент, в котором я создаю несколько иерархических кластеров документов. Каждая кластеризация будет представлена в виде дерева кластеров, где каждый кластер представляет собой подмножество документов из исходного корпуса, и кластеры…
15 апр '18 в 03:54
1
ответ
Как получить топ N часто встречающихся слов в каждом кластере? Sklearn
У меня есть текстовый корпус, который содержит более 1000 статей в каждой отдельной строке. Я использовал Hierarchy Clustering с использованием Sklearn в python для создания кластеров связанных статей. Это код, который я использовал для кластеризаци…
01 май '17 в 15:03
1
ответ
Сципи дендрограмма с именами
В своей работе я использую пример дендрограммы из этого поста, но также хотел бы отслеживать, какая строка / столбец принадлежит какой части данных. Я редактировал код с записями имен данных как names следующим образом и хотел бы распечатать имена в…
23 июн '16 в 19:07
1
ответ
Почему hclust показывает инверсию здесь?
Вот три пункта и иерархическая кластеризация с использованием hclust в R методом "центроид". points <- data.frame(x = c(0, 1, 0.75), y = c(0, 0, 1)) centroid <- hclust(dist(points), method = "centroid") plot(centroid) Полученная дендрограмма к…
03 дек '18 в 22:20
1
ответ
Как проанализировать результат t-SNE(KMeans) в Python?
Я использовал t-SNE для кластеризации KMeans, но после получения результата t-SNE я не мог понять, как я могу связать это с моими исходными данными. Может ли кто-нибудь помочь мне понять результат, и что мне делать дальше, чтобы лучше понять результ…
25 июн '18 в 11:43
0
ответов
Ошибка памяти при иерархической кластеризации Python 3.6
У меня достаточно большой набор данных (матрица 1841000*32), на котором я хочу запустить алгоритм иерархической кластеризации. И класс AgglomerativeClustering, и класс FeatureAgglomeration в sklearn.cluster выдают приведенную ниже ошибку. ----------…
02 июл '18 в 05:19
0
ответов
Получить конкретные элементы из кластерных данных в R
Я генерирую это изображение, используя hclust функция. Теперь я перейду к идентификатору тех элементов, которые выделены квадратами. http://i59.tinypic.com/117u2ro.jpg Есть ли способ получить идентификатор и соответствующее значение из кластеризован…
15 май '15 в 13:02
1
ответ
R строит верхнюю дендрограмму на основе k
Я кластеризовал матрицу расстояний на основе данных столбца 20000 x 169 в R, используя hclust(). Когда я преобразовываю кластерный объект в дендрограмму и строю всю дендрограмму, ее трудно читать, потому что она очень большая, даже если я вывожу ее …
15 янв '16 в 20:50
3
ответа
Python: связанные компоненты на сфере
Я бился головой об этом уже некоторое время. Моя проблема очень проста для объяснения: У меня есть данные, содержащие долготы и широты. Для простоты предположим, что это координаты городов. Я хочу разделить эти координаты города на группы, чтобы все…
07 апр '16 в 11:52
1
ответ
Алгоритмы кластеризации с R
Я на самом деле пытаюсь создать тепловую карту. Поэтому мне нужно найти подходящий метод кластеризации. Вот пример моего фрейма данных: df1 g1 g2 g3 g4 g5 g6 g7 g8 g9 g10 g11 1 1 1 0 0 3 4 4 0 0 6 0 2 0 0 2 2 0 0 0 0 0 0 8 3 0 0 0 0 0 0 0 2 2 0 0 4 …
28 фев '19 в 23:00
2
ответа
Как преобразовать текстовые файлы в формат.arff (weka)
Пожалуйста, посоветуйте мне, Как мне преобразовать текстовые файлы в формат.arff (weka), потому что я хочу сделать кластеризацию данных для 1000 текстовых файлов. С уважением
27 дек '12 в 17:04
4
ответа
Иерархическая кластеризация микрочипов и PCA с питоном
Я пытаюсь проанализировать данные микрочипов, используя иерархическую кластеризацию столбцов микрочипов (результаты отдельных копий микрочипов) и PCA. Я новичок в питоне. У меня есть Python 2.7.3, biopyhton, numpy, matplotlib и networkx. Существуют …
07 янв '13 в 07:14
0
ответов
Получение не-одиночных кластерных идентификаторов в скучной иерархической кластеризации
Согласно документации Scipy, мы можем получить идентификаторы кластеров для не-одноэлементных кластеров. Я задавал один и тот же вопрос о переполнении стека один раз. Но, похоже, это не лучшее решение, и я попробовал несколько. Тем не менее я не мог…
12 июн '14 в 13:36
1
ответ
Как соотнести мои исходные данные с кластерными данными
У меня матрица расстояний представляет матрицу расстояний для попарных элементов, таких как A B C D ..... A n1 n2 n3 B n1 C n2 n4 D n3 n5 ....... E......... я ввел массив, как для кластеризации arry= [ 0 n1, n2, n3.. n1....... n2 n4 n3 n5 ] Y=sch.li…
31 янв '13 в 19:13