Описание тега hdbscan

Пространственная кластеризация приложений с шумом на основе плотности (DBSCAN) - это алгоритм кластеризации данных, предложенный Мартином Эстером, Хансом-Петером Кригелем, Йоргом Сандером и Сяовей Сюй в 1996 году. Это алгоритм кластеризации на основе плотности: задан набор точек в В некотором пространстве он группирует точки, которые плотно прилегают друг к другу (точки с множеством ближайших соседей), отмечая как выбросы точки, которые лежат одни в регионах с низкой плотностью.
1 ответ

Как узнать, какой строке матрицы соответствует каждая метка кластера?

После кластеризации я получаю объект, который хранит все метки кластера, что-то вроде этого: clusterer.labels_ Выше, как правило, список или массив. Затем я всегда назначаю метки исходному кадру данных панд (набор данных) следующим образом: df['clus…
07 июл '18 в 18:12
1 ответ

Точная настройка параметров hdbscan для кластеризации текстовых документов

У меня есть текстовые документы, которые группируются с использованием hdbsca. Когда у меня есть данные о количестве лазера около 35 документов и правильные значения кластеров около 14, то, используя следующие параметры, я получаю правильный результ…
01 окт '18 в 12:28
1 ответ

Как использовать GloVe для генерации векторной матрицы?

Я использую алгоритм HDBSCAN для создания кластеров из документов, которые у меня есть. Но чтобы создать векторную матрицу из слов, я использую алгоритм tf-idf и хочу использовать GloVe. Я искал сообщения, но не мог понять, как использовать этот алг…
16 июн '18 в 12:15
0 ответов

Реализация кластеризации HDBSCAN в Ruby

Существует ли реализация кластеризации HDBSCAN в Ruby, или хорошо объясненный псевдокод (который можно использовать в качестве основы для его реализации), или любой другой алгоритм кластеризации на основе Ruby, который способен обнаруживать выбросы …
17 авг '18 в 13:09
2 ответа

Какова подходящая метрика расстояния при кластеризации векторов параграфа /doc2vec?

Я собираюсь кластеризовать векторы документов из doc2vec с помощью HDBSCAN. Я хочу найти крошечные кластеры, где есть семантические и текстовые дубликаты. Для этого я использую gensim для генерации векторов документов. Все элементы результирующих do…
1 ответ

Правило Snakemake запускается только для одного файла

У меня есть правило в snakemake это работает HDBSCAN кластеризация. Раньше это было регулярно DBSCAN и работал нормально, но после того, как я изменил его, как-то проблема началась (я также изменил Snakemake файл по другим причинам, поэтому сложно с…
08 фев '19 в 01:00
1 ответ

Как использовать sklearn.metrics.pairwise pairwise_distances с вызываемой метрикой?

Я делаю некоторый анализ поведения, где отслеживаю поведение с течением времени, а затем создаю n-граммы этого поведения. sample_n_gram_list = [['scratch', 'scratch', 'scratch', 'scratch', 'scratch'], ['scratch', 'scratch', 'scratch', 'scratch', 'sm…
17 дек '18 в 04:26
0 ответов

Ошибка в plot.new(): слишком большие поля в пакете HDBSCAN

Я делаю кластеризацию данных RNA-seq, используя R и R Studio в Linux, и при попытке использовать hdbscan в моих данных я получаю действительные кластеры. cl <- hdbscan(df, minPts = 3) Но при построении я получаю plot(df, col=cl$cluster+1, pch=20)…
25 апр '19 в 16:44
0 ответов

Печать Python-генерируемого графика в R

Я работаю над выполнением HDBSCAN и выполняю анализ с использованием hdbscan модуль Python в R. У меня есть следующий код: library(reticulate) hdb <- import("hdbscan") # Import hdbscan Python library # Create dummy data. My actual data set is an …
02 апр '19 в 10:46
1 ответ

HDBSCAN для R Сбой с большим набором данных

Я попытался применить алгоритм HDBSCAN к моему набору данных (50000 точек GPS). Тем не менее, каждый раз, когда я запускаю код, сеанс R сбой. Вот основная информация. о моем ПК: processor: Intel i7 7820x 3.6 GHz memory: 120 GB System: 64-bit Operati…
19 май '19 в 13:42
0 ответов

Преобразование данных массива сжатого дерева из hdbscan в дендрограмму

У меня есть файл.csv, содержащий данные иерархической кластеризации, сгенерированные из hdbscan. Файл отформатирован так: parent child lambda_val child_size 0 122 25 1.5703 1 1 122 22 1.3654 1 2 122 120 1.4753 1 3 122 123 1.2594 100 ... 307 502 87 1…
1 ответ

Плотность и пороговая кластеризация в dbscan

Я работаю над некоторыми данными температурных температур промышленных деталей. У меня есть пиксельная температура детали со значениями температуры. Я хочу использовать dbscan идентифицировать части, которые имеют кластеры пикселей в каждой части, г…
1 ответ

Как распечатать результаты вывода в HDBSCAN

У меня есть данные ASCII, и мне нужно кластеризовать данные с помощью HDBSCAN. Я получил этикетки, но я не знаю, как напечатать результаты кластера вывода, то есть уникальные и отдельные результаты из hdbscan. фрагмент кода: import hdbscan import nu…
10 апр '19 в 10:02
0 ответов

Использование функций hdbscan непосредственно в Zeppelin для отладки

Я использую HDBSCAN для выполнения кластеризации клиентов, но у меня возникают проблемы с измерением достоверности кластеров (вычисление индекса DBCV). Я получаю наны для некоторых кластеров, и я не понимаю, почему (я не могу поделиться данными, и п…
1 ответ

Предложение по алгоритму кластеризации?

У меня есть набор данных 590000 записей после предварительной обработки, и я хотел найти кластеры из него, и он содержит строковые данные (сейчас предположим, что у меня есть только один столбец с 590000 уникальных значений в наборе данных). Также я…
0 ответов

Разница между методами кластеризации OPTICS и HDBSCAN

Как часть моего задания, я должен работать как с кластеризацией HDBSCAN, так и с методикой OPTICS. Я исследовал на многих сайтах, чтобы определить разницу между этими алгоритмами. Все, что я получил, было алгоритмом OPTICS - небольшое отличие от HDB…
2 ответа

Как оценить текстовые кластеры HDBSCAN?

В настоящее время я пытаюсь использовать HDBSCAN для кластеризации данных фильма. Цель состоит в том, чтобы объединить похожие фильмы вместе (на основе информации о фильмах, таких как ключевые слова, жанры, имена актеров и т. Д.), А затем применить …
06 авг '19 в 16:48
1 ответ

Как восстановить образ после кластеризации с помощью hdbscan?

Я пытаюсь восстановить изображение опухоли головного мозга после кластеризации с использованием hdbscan. Однако hdbscan не имеет кластерных центров в отличие от kmeans, поэтому я немного запутался в том, как получить кластерное изображение. Я попыта…
13 авг '19 в 04:53
0 ответов

HDBSCAN не будет использовать все доступные процессоры. Процессы просто спят

В течение последних нескольких недель я пытался провести довольно большой кластерный анализ, используя HDBSCAN алгоритм в python 3.7, Данные, о которых идет речь, составляют примерно 4 миллиона строк на 40 столбцов, около 1,5GB в CSV формат. Это сме…
0 ответов

Создание функции HDBSCAN на pyspark

Я хотел бы выполнить модель HDBSCAN в виде произвольной текстовой переменной из набора данных, а затем перекомпоновать метку в этот же набор данных. Используемый язык: PYSPARK Вот моя функция PYSPARK: def apply_hdbscan(tf_idf, input_column, ctx): tf…
26 июн '19 в 16:28