Описание тега hdbscan
Пространственная кластеризация приложений с шумом на основе плотности (DBSCAN) - это алгоритм кластеризации данных, предложенный Мартином Эстером, Хансом-Петером Кригелем, Йоргом Сандером и Сяовей Сюй в 1996 году. Это алгоритм кластеризации на основе плотности: задан набор точек в В некотором пространстве он группирует точки, которые плотно прилегают друг к другу (точки с множеством ближайших соседей), отмечая как выбросы точки, которые лежат одни в регионах с низкой плотностью.
1
ответ
Как узнать, какой строке матрицы соответствует каждая метка кластера?
После кластеризации я получаю объект, который хранит все метки кластера, что-то вроде этого: clusterer.labels_ Выше, как правило, список или массив. Затем я всегда назначаю метки исходному кадру данных панд (набор данных) следующим образом: df['clus…
07 июл '18 в 18:12
1
ответ
Точная настройка параметров hdbscan для кластеризации текстовых документов
У меня есть текстовые документы, которые группируются с использованием hdbsca. Когда у меня есть данные о количестве лазера около 35 документов и правильные значения кластеров около 14, то, используя следующие параметры, я получаю правильный результ…
01 окт '18 в 12:28
1
ответ
Как использовать GloVe для генерации векторной матрицы?
Я использую алгоритм HDBSCAN для создания кластеров из документов, которые у меня есть. Но чтобы создать векторную матрицу из слов, я использую алгоритм tf-idf и хочу использовать GloVe. Я искал сообщения, но не мог понять, как использовать этот алг…
16 июн '18 в 12:15
0
ответов
Реализация кластеризации HDBSCAN в Ruby
Существует ли реализация кластеризации HDBSCAN в Ruby, или хорошо объясненный псевдокод (который можно использовать в качестве основы для его реализации), или любой другой алгоритм кластеризации на основе Ruby, который способен обнаруживать выбросы …
17 авг '18 в 13:09
2
ответа
Какова подходящая метрика расстояния при кластеризации векторов параграфа /doc2vec?
Я собираюсь кластеризовать векторы документов из doc2vec с помощью HDBSCAN. Я хочу найти крошечные кластеры, где есть семантические и текстовые дубликаты. Для этого я использую gensim для генерации векторов документов. Все элементы результирующих do…
09 окт '18 в 13:35
1
ответ
Правило Snakemake запускается только для одного файла
У меня есть правило в snakemake это работает HDBSCAN кластеризация. Раньше это было регулярно DBSCAN и работал нормально, но после того, как я изменил его, как-то проблема началась (я также изменил Snakemake файл по другим причинам, поэтому сложно с…
08 фев '19 в 01:00
1
ответ
Как использовать sklearn.metrics.pairwise pairwise_distances с вызываемой метрикой?
Я делаю некоторый анализ поведения, где отслеживаю поведение с течением времени, а затем создаю n-граммы этого поведения. sample_n_gram_list = [['scratch', 'scratch', 'scratch', 'scratch', 'scratch'], ['scratch', 'scratch', 'scratch', 'scratch', 'sm…
17 дек '18 в 04:26
0
ответов
Ошибка в plot.new(): слишком большие поля в пакете HDBSCAN
Я делаю кластеризацию данных RNA-seq, используя R и R Studio в Linux, и при попытке использовать hdbscan в моих данных я получаю действительные кластеры. cl <- hdbscan(df, minPts = 3) Но при построении я получаю plot(df, col=cl$cluster+1, pch=20)…
25 апр '19 в 16:44
0
ответов
Печать Python-генерируемого графика в R
Я работаю над выполнением HDBSCAN и выполняю анализ с использованием hdbscan модуль Python в R. У меня есть следующий код: library(reticulate) hdb <- import("hdbscan") # Import hdbscan Python library # Create dummy data. My actual data set is an …
02 апр '19 в 10:46
1
ответ
HDBSCAN для R Сбой с большим набором данных
Я попытался применить алгоритм HDBSCAN к моему набору данных (50000 точек GPS). Тем не менее, каждый раз, когда я запускаю код, сеанс R сбой. Вот основная информация. о моем ПК: processor: Intel i7 7820x 3.6 GHz memory: 120 GB System: 64-bit Operati…
19 май '19 в 13:42
0
ответов
Преобразование данных массива сжатого дерева из hdbscan в дендрограмму
У меня есть файл.csv, содержащий данные иерархической кластеризации, сгенерированные из hdbscan. Файл отформатирован так: parent child lambda_val child_size 0 122 25 1.5703 1 1 122 22 1.3654 1 2 122 120 1.4753 1 3 122 123 1.2594 100 ... 307 502 87 1…
13 мар '19 в 02:37
1
ответ
Плотность и пороговая кластеризация в dbscan
Я работаю над некоторыми данными температурных температур промышленных деталей. У меня есть пиксельная температура детали со значениями температуры. Я хочу использовать dbscan идентифицировать части, которые имеют кластеры пикселей в каждой части, г…
02 апр '19 в 13:41
1
ответ
Как распечатать результаты вывода в HDBSCAN
У меня есть данные ASCII, и мне нужно кластеризовать данные с помощью HDBSCAN. Я получил этикетки, но я не знаю, как напечатать результаты кластера вывода, то есть уникальные и отдельные результаты из hdbscan. фрагмент кода: import hdbscan import nu…
10 апр '19 в 10:02
0
ответов
Использование функций hdbscan непосредственно в Zeppelin для отладки
Я использую HDBSCAN для выполнения кластеризации клиентов, но у меня возникают проблемы с измерением достоверности кластеров (вычисление индекса DBCV). Я получаю наны для некоторых кластеров, и я не понимаю, почему (я не могу поделиться данными, и п…
01 май '19 в 13:30
1
ответ
Предложение по алгоритму кластеризации?
У меня есть набор данных 590000 записей после предварительной обработки, и я хотел найти кластеры из него, и он содержит строковые данные (сейчас предположим, что у меня есть только один столбец с 590000 уникальных значений в наборе данных). Также я…
26 июн '19 в 16:29
0
ответов
Разница между методами кластеризации OPTICS и HDBSCAN
Как часть моего задания, я должен работать как с кластеризацией HDBSCAN, так и с методикой OPTICS. Я исследовал на многих сайтах, чтобы определить разницу между этими алгоритмами. Все, что я получил, было алгоритмом OPTICS - небольшое отличие от HDB…
27 июл '19 в 08:04
2
ответа
Как оценить текстовые кластеры HDBSCAN?
В настоящее время я пытаюсь использовать HDBSCAN для кластеризации данных фильма. Цель состоит в том, чтобы объединить похожие фильмы вместе (на основе информации о фильмах, таких как ключевые слова, жанры, имена актеров и т. Д.), А затем применить …
06 авг '19 в 16:48
1
ответ
Как восстановить образ после кластеризации с помощью hdbscan?
Я пытаюсь восстановить изображение опухоли головного мозга после кластеризации с использованием hdbscan. Однако hdbscan не имеет кластерных центров в отличие от kmeans, поэтому я немного запутался в том, как получить кластерное изображение. Я попыта…
13 авг '19 в 04:53
0
ответов
HDBSCAN не будет использовать все доступные процессоры. Процессы просто спят
В течение последних нескольких недель я пытался провести довольно большой кластерный анализ, используя HDBSCAN алгоритм в python 3.7, Данные, о которых идет речь, составляют примерно 4 миллиона строк на 40 столбцов, около 1,5GB в CSV формат. Это сме…
15 июл '19 в 17:45
0
ответов
Создание функции HDBSCAN на pyspark
Я хотел бы выполнить модель HDBSCAN в виде произвольной текстовой переменной из набора данных, а затем перекомпоновать метку в этот же набор данных. Используемый язык: PYSPARK Вот моя функция PYSPARK: def apply_hdbscan(tf_idf, input_column, ctx): tf…
26 июн '19 в 16:28