Описание тега cluster-analysis
Кластерный анализ - это процесс группирования "похожих" объектов в группы, известные как "кластеры", наряду с анализом этих результатов.
1
ответ
Подходы для кластеризации пространственно-геодезической широты и долготы в R - Follow-Up
Мои являются продолжением вопроса и ответа в Подходах для пространственной геодезической широты и долготы, кластеризованной в R с геодезической или большим круговым расстоянием. Я хотел бы лучше понять: Вопрос № 1: Если все значения широты / долготы…
30 май '14 в 06:20
1
ответ
Кластеризация DBSCAN - что происходит, когда пограничная точка одного кластера считается базовой точкой другого кластера
Я хотел бы узнать ваше мнение о кластеризации dbscan, я пытаюсь реализовать алгоритм, как опубликовано здесь. На мой взгляд, существует возможность того, что одна точка от границы одного кластера будет центральной точкой другой, как показано на рису…
21 дек '15 в 11:30
1
ответ
Как я могу объединить / сгруппировать людей, учитывая их продолжительность для данного события?
Я новичок в машинном обучении и у меня есть очень большой набор данных для группы из 100 человек в течение 1 года. и цель состоит в том, чтобы выяснить, кто такие приятели, исходя из времени их обеда. У меня есть следующий набор данных: Person Start…
10 сен '16 в 03:25
4
ответа
Суммирование данных на основе столбца в R
Я новичок в R, и у меня есть набор данных, который выглядит следующим образом (фактические данные 10K на 5K, поэтому мне действительно нужен короткий путь): Cluster Item1 Item2 Item 3 1 1 2 2 1 3 1 1 1 1 3 0 2 3 2 0 2 0 0 2 2 4 2 2 3 0 1 1 3 1 1 2 Я…
08 ноя '14 в 12:09
1
ответ
Кнн предсказания с кластеризацией
У меня есть набор данных 60,000 obs/40 Variable, в котором я использовал Clara, в основном из-за ограничений памяти. library(cluster) library(dplyr) mutate(kddnew, Att=ifelse(Class=="normal","normal", "attack")) ds <- dat[,c(-20,-21,-40) clus <…
12 июн '15 в 23:06
1
ответ
Запустить DBSCAN по траекториям
Я пытаюсь запустить DBSCAN (sklearn.cluster) на наборе данных траекторий. Набор данных представляет собой массив массивов (траекторий) массивов (точек) dataset_test = array([[[46.37017059, 30.954216 ], [46.39661026, 30.94524956], [46.46545792, 30.94…
22 окт '18 в 09:48
1
ответ
Выбор входных значений для алгоритма DBSCAN
Я написал код на Python для реализации алгоритма кластеризации DBSCAN. Мой набор данных состоит из 14 тысяч пользователей, каждый из которых представлен 10 функциями. Я не могу решить, что именно оставить в качестве значения Min_samples и epsilon в …
14 апр '12 в 17:04
1
ответ
Как напечатать результат кластеризации в sklearn
У меня скудная матрица from scipy.sparse import * M = csr_matrix((data_np, (rows_np, columns_np))); тогда я делаю кластеризацию таким образом from sklearn.cluster import KMeans km = KMeans(n_clusters=n, init='random', max_iter=100, n_init=1, verbose…
22 апр '15 в 13:26
1
ответ
Неэффективность тематического моделирования для кластеризации текста
Я попытался сделать кластеризацию текста с использованием LDA, но это не дает мне четких кластеров. Ниже мой код #Import libraries from gensim import corpora, models import pandas as pd from gensim.parsing.preprocessing import STOPWORDS from itertoo…
20 мар '18 в 09:17
1
ответ
Иерархическая кластеризация текста в масштабе
У меня есть большой набор данных (миллиарды записей), который почти полностью состоит из категориальных переменных. Эти данные будут использованы для прогнозирования довольно редкого численного результата. Большинство атрибутов имеют большую мощност…
25 июн '15 в 17:42
2
ответа
Как проверить, является ли функция стоимости вогнутой или выпуклой?
Как проверить, является ли эта функция стоимости вогнутой или выпуклой? Я также хочу выяснить, имеет ли это один или несколько минимумов. Усилие сделано; function [w,pi,costvalue] = main_cost(inputdata, tmax, alpha_ini,somrow,somcol) %main cost fun…
19 ноя '15 в 08:10
0
ответов
Как определить индекс Данна с помощью пакета clValid в R?
Я пытаюсь воспроизвести результаты журнальной статьи, где авторы предложили алгоритм кластеризации и вычислили индекс Данна для получающегося кластера, используя clValid в R. Я смог скопировать кластер. Однако я не могу получить индекс Данна. У меня…
13 авг '18 в 00:23
1
ответ
Кластеризация с помощью scipy - кластеры через матрицу расстояний, как вернуть исходные объекты
Я не могу найти достаточно простых уроков или описаний по кластеризации в scipy, поэтому я попытаюсь объяснить мою проблему: Я пытаюсь кластеризовать документы (иерархическая агломерационная кластеризация), и создал вектор для каждого документа и со…
11 окт '11 в 10:33
3
ответа
Кластеризация элементов в массиве по именам авторов
У меня есть массив, как это: [1] "John", "content1" [2] "John", "content2" [3] "John", "content3" [4] "Jim", "content" [5] "Joana", "content1" [6] "Joana", "content2" Я попытался получить вывод, как это: <ul> <li>John <ul> <li&g…
22 май '11 в 23:06
0
ответов
Понимание обнаружения сообщества Infomap
Мне нужно понятное описание алгоритма обнаружения сообщества Infomap. Я читал газеты, но мне было не ясно. Мои вопросы: Как в принципе работает алгоритм? При чем тут случайные прогулки? Что такое уравнение карты и в чем (очевидно) разница с оптимиза…
30 янв '18 в 18:57
1
ответ
R - Анализ раздвижных дверей # событий за период времени
Я пересылаю этот вопрос, так как думал, что мне нужен анализ кластерного типа, но для этого нужен анализ "скользящего окна". У меня есть набор данных, в котором записано 59 тыс. Записей за 63 года, мне нужно идентифицировать "кластеры" событий по сл…
05 авг '14 в 21:36
0
ответов
R - CLARA кластеризация параллельно
Можно ли выполнить кластеризацию CLARA (кластеризацию вокруг медоидов, выполняемых путем выборки), используя функции параллельной обработки R? У меня есть около 150000 точек в 8 измерениях, поэтому мне нужно кластеризовать образцы, в противном случа…
21 авг '13 в 10:39
1
ответ
Лучший способ построить кластер OHLC по кластеру в R
Я пытаюсь построить диаграммы OHLC в R, где они принадлежат кластеру kmeans. Я создал кластер kmeans для своих данных и добавил кластер, который подходит для моих данных XTS. Open High Low Close ..2 2008-06-25 18:00:00 0 0.0017 0.0000 0.0015 9 2008-…
02 июл '13 в 02:31
3
ответа
Кластеризация новостных статей
Мой сценарий довольно прост: у меня есть куча новостных статей (~1k на данный момент), для которых я знаю, что некоторые из них освещают одну и ту же историю / тему. Теперь я хотел бы сгруппировать эти статьи на основе общей истории / темы, то есть …
10 авг '14 в 11:39
1
ответ
Параметр 'ufactor' в метисе для кластеризации дисбаланса
Я использую METIS для кластеризации пользователей социальных сетей. По умолчанию он выводил кластеры с одинаковым количеством вершин на каждой стороне, что не идеально в сценарии реального мира. Итак, я пытался найти способ ослабить ограничение "оди…
08 июл '17 в 13:13