Описание тега cluster-analysis

Кластерный анализ - это процесс группирования "похожих" объектов в группы, известные как "кластеры", наряду с анализом этих результатов.
1 ответ

Подходы для кластеризации пространственно-геодезической широты и долготы в R - Follow-Up

Мои являются продолжением вопроса и ответа в Подходах для пространственной геодезической широты и долготы, кластеризованной в R с геодезической или большим круговым расстоянием. Я хотел бы лучше понять: Вопрос № 1: Если все значения широты / долготы…
30 май '14 в 06:20
1 ответ

Кластеризация DBSCAN - что происходит, когда пограничная точка одного кластера считается базовой точкой другого кластера

Я хотел бы узнать ваше мнение о кластеризации dbscan, я пытаюсь реализовать алгоритм, как опубликовано здесь. На мой взгляд, существует возможность того, что одна точка от границы одного кластера будет центральной точкой другой, как показано на рису…
21 дек '15 в 11:30
1 ответ

Как я могу объединить / сгруппировать людей, учитывая их продолжительность для данного события?

Я новичок в машинном обучении и у меня есть очень большой набор данных для группы из 100 человек в течение 1 года. и цель состоит в том, чтобы выяснить, кто такие приятели, исходя из времени их обеда. У меня есть следующий набор данных: Person Start…
4 ответа

Суммирование данных на основе столбца в R

Я новичок в R, и у меня есть набор данных, который выглядит следующим образом (фактические данные 10K на 5K, поэтому мне действительно нужен короткий путь): Cluster Item1 Item2 Item 3 1 1 2 2 1 3 1 1 1 1 3 0 2 3 2 0 2 0 0 2 2 4 2 2 3 0 1 1 3 1 1 2 Я…
08 ноя '14 в 12:09
1 ответ

Кнн предсказания с кластеризацией

У меня есть набор данных 60,000 obs/40 Variable, в котором я использовал Clara, в основном из-за ограничений памяти. library(cluster) library(dplyr) mutate(kddnew, Att=ifelse(Class=="normal","normal", "attack")) ds <- dat[,c(-20,-21,-40) clus &lt…
12 июн '15 в 23:06
1 ответ

Запустить DBSCAN по траекториям

Я пытаюсь запустить DBSCAN (sklearn.cluster) на наборе данных траекторий. Набор данных представляет собой массив массивов (траекторий) массивов (точек) dataset_test = array([[[46.37017059, 30.954216 ], [46.39661026, 30.94524956], [46.46545792, 30.94…
22 окт '18 в 09:48
1 ответ

Выбор входных значений для алгоритма DBSCAN

Я написал код на Python для реализации алгоритма кластеризации DBSCAN. Мой набор данных состоит из 14 тысяч пользователей, каждый из которых представлен 10 функциями. Я не могу решить, что именно оставить в качестве значения Min_samples и epsilon в …
14 апр '12 в 17:04
1 ответ

Как напечатать результат кластеризации в sklearn

У меня скудная матрица from scipy.sparse import * M = csr_matrix((data_np, (rows_np, columns_np))); тогда я делаю кластеризацию таким образом from sklearn.cluster import KMeans km = KMeans(n_clusters=n, init='random', max_iter=100, n_init=1, verbose…
22 апр '15 в 13:26
1 ответ

Неэффективность тематического моделирования для кластеризации текста

Я попытался сделать кластеризацию текста с использованием LDA, но это не дает мне четких кластеров. Ниже мой код #Import libraries from gensim import corpora, models import pandas as pd from gensim.parsing.preprocessing import STOPWORDS from itertoo…
20 мар '18 в 09:17
1 ответ

Иерархическая кластеризация текста в масштабе

У меня есть большой набор данных (миллиарды записей), который почти полностью состоит из категориальных переменных. Эти данные будут использованы для прогнозирования довольно редкого численного результата. Большинство атрибутов имеют большую мощност…
2 ответа

Как проверить, является ли функция стоимости вогнутой или выпуклой?

Как проверить, является ли эта функция стоимости вогнутой или выпуклой? Я также хочу выяснить, имеет ли это один или несколько минимумов. Усилие сделано; function [w,pi,costvalue] = main_cost(inputdata, tmax, alpha_ini,somrow,somcol) %main cost fun…
0 ответов

Как определить индекс Данна с помощью пакета clValid в R?

Я пытаюсь воспроизвести результаты журнальной статьи, где авторы предложили алгоритм кластеризации и вычислили индекс Данна для получающегося кластера, используя clValid в R. Я смог скопировать кластер. Однако я не могу получить индекс Данна. У меня…
13 авг '18 в 00:23
1 ответ

Кластеризация с помощью scipy - кластеры через матрицу расстояний, как вернуть исходные объекты

Я не могу найти достаточно простых уроков или описаний по кластеризации в scipy, поэтому я попытаюсь объяснить мою проблему: Я пытаюсь кластеризовать документы (иерархическая агломерационная кластеризация), и создал вектор для каждого документа и со…
11 окт '11 в 10:33
3 ответа

Кластеризация элементов в массиве по именам авторов

У меня есть массив, как это: [1] "John", "content1" [2] "John", "content2" [3] "John", "content3" [4] "Jim", "content" [5] "Joana", "content1" [6] "Joana", "content2" Я попытался получить вывод, как это: <ul> <li>John <ul> <li&g…
22 май '11 в 23:06
0 ответов

Понимание обнаружения сообщества Infomap

Мне нужно понятное описание алгоритма обнаружения сообщества Infomap. Я читал газеты, но мне было не ясно. Мои вопросы: Как в принципе работает алгоритм? При чем тут случайные прогулки? Что такое уравнение карты и в чем (очевидно) разница с оптимиза…
30 янв '18 в 18:57
1 ответ

R - Анализ раздвижных дверей # событий за период времени

Я пересылаю этот вопрос, так как думал, что мне нужен анализ кластерного типа, но для этого нужен анализ "скользящего окна". У меня есть набор данных, в котором записано 59 тыс. Записей за 63 года, мне нужно идентифицировать "кластеры" событий по сл…
0 ответов

R - CLARA кластеризация параллельно

Можно ли выполнить кластеризацию CLARA (кластеризацию вокруг медоидов, выполняемых путем выборки), используя функции параллельной обработки R? У меня есть около 150000 точек в 8 измерениях, поэтому мне нужно кластеризовать образцы, в противном случа…
21 авг '13 в 10:39
1 ответ

Лучший способ построить кластер OHLC по кластеру в R

Я пытаюсь построить диаграммы OHLC в R, где они принадлежат кластеру kmeans. Я создал кластер kmeans для своих данных и добавил кластер, который подходит для моих данных XTS. Open High Low Close ..2 2008-06-25 18:00:00 0 0.0017 0.0000 0.0015 9 2008-…
02 июл '13 в 02:31
3 ответа

Кластеризация новостных статей

Мой сценарий довольно прост: у меня есть куча новостных статей (~1k на данный момент), для которых я знаю, что некоторые из них освещают одну и ту же историю / тему. Теперь я хотел бы сгруппировать эти статьи на основе общей истории / темы, то есть …
1 ответ

Параметр 'ufactor' в метисе для кластеризации дисбаланса

Я использую METIS для кластеризации пользователей социальных сетей. По умолчанию он выводил кластеры с одинаковым количеством вершин на каждой стороне, что не идеально в сценарии реального мира. Итак, я пытался найти способ ослабить ограничение "оди…
08 июл '17 в 13:13