Описание тега feature-clustering

1 ответ

Кластеризация по параметрам модели

Я пытался выполнить кластеризацию на основе параметров модели SGD (Coefficient и Intercept). coef_ содержит веса w, а intercept_ содержит b. Как можно использовать эти параметры с кластеризацией (KMedoids) для группы изученной модели? import numpy a…
04 авг '20 в 15:50
0 ответов

Как сгруппировать набор точек с учетом расстояний между ними?

У меня есть набор точек данных, которые похожи по форме. Их сходство колеблется от 0 до 1. Я хотел бы сгруппировать эти точки данных на основе их сходства. Ниже приведен пример имеющихся у меня данных: ("a", "b", 0.5) <- (&quo…
0 ответов

Векторное квантование LBG - коэффициент разделения

Сейчас делаю программу для распознавания речи. На этапе создания кодовой книги с использованием алгоритма LBG (Linde-Buzo-Gray) я читал, что коэффициент разделения epsilon = 0,01 (обычно) Коэффициент разделения используется для разделения центроида …
1 ответ

Как получить данные плитки от сервера векторных плиток ClusterBuster в примере примера?

Резюме Похоже, ребята отлично поработали со встроенными фильтрами, кластеризацией и кешированием на сервере векторных листов ClusterBuster. Я очень взволнован этим проектом, который выглядит очень многообещающим, и я очень хочу его попробовать! Я ра…
1 ответ

Кластеризация вокруг фиксированного вектора значений

У меня есть набор данных брендов с различными функциями, такими как калории, содержание сахара, содержание клетчатки и т. Д., Например С помощью dput(): structure(list(Row = 1:30, Brands = structure(c(1L, 112L, 223L, 242L, 253L, 264L, 275L, 286L, 29…
01 дек '20 в 01:10
0 ответов

Преобразование данных в вектор признаков

У меня есть демографические данные пользователей из данных MovieLens. и я пытаюсь применить к нему алгоритм kmeans. Age Occupation Zip-code 0 1 10 48067 1 56 16 70072 2 25 15 55117 3 45 7 2460 4 25 20 55455 Я хочу преобразовать его в такой вектор фу…
0 ответов

Может ли кластеризация в низком измерении точнее, чем в высоком измерении?

У меня вопрос о скрытом пространстве. В GAN или AE есть скрытое пространство, которое уменьшает размер набора данных. Я учусь с набором данных KDD CUP. Есть ли вероятность, что кластеризация объектов, извлеченных из низкой размерности (скрытого прос…
0 ответов

Python: кластеризация с использованием текста, категорий и даты

Пытаюсь сделать кластеризацию техпроцессов. в моем наборе данных есть много текстовых данных, которые я уже сгруппировал с помощью TF-IDF и k-means. Теперь я хочу также использовать некоторые другие функции, такие как названия отделов (которые являю…
0 ответов

Кластеризация без надзора для многомерных данных в модели Keras?

В настоящее время я обучаю автоэнкодера изучать представления функций с помощью встраиваний. Моя конечная цель - сгруппировать изученные представления и масштабировать их до трех измерений для визуализации. Моя проблема в том, что я не знаю, как изу…
0 ответов

Сопряжение местоположений с учетом геопространственных данных

У меня есть две следующие фиктивные таблицы данных. Первый - это таблица данных, содержащая широту и долготу различных местоположений магазинов, их тип и общий числовой идентификатор этого магазина. Это выглядит примерно так: ID lat long type 1 1 -3…
1 ответ

k-среднее кластеризация - инерция только увеличивается

Я пытаюсь использовать кластеризацию KMeans из faiss на наборе данных позы суставов тела человека. У меня 16 частей тела, то есть размер 32. Суставы масштабируются в диапазоне от 0 до 1. Мой набор данных состоит из ~ 900000 экземпляров. Как упомянул…
15 май '21 в 23:36
0 ответов

Кластеризация с помощью NMF(неотрицательная матричная факторизация)

Я работаю над данными о трафике, чтобы оценить время прибытия автобуса. Я пытаюсь использовать NMF для кластеризации сегментов (каждый сегмент от остановки I до следующей остановки I + 1) в k кластеров, где каждый кластер имеет сегменты с одинаковым…
0 ответов

как применить K-means++ только к «1 измерению» массива numpy и сохранить другое измерение как есть

У меня есть примененный алгоритм k-средних по форме (2048, 475). Я использовал следующий код from sklearn.cluster import KMeans model = KMeans(n_clusters=36, random_state=42) model.fit(abc) labels = model.labels_ print(labels) Я хочу применить класт…
0 ответов

Как сгруппировать объект, состоящий из 80000 уникальных записей, в более мелкие группы [закрыто]

В настоящее время я работаю с набором данных профиля пациента в своей компании, который состоит из более чем 20 миллионов строк наблюдений, каждая из которых имеет функцию назначения, которая назначается каждому пациенту. Проблема в том, что существ…
1 ответ

Неконтролируемая кластеризация больших многомерных данных

Здравствуйте, я новичок в машинном обучении. Мне нужна помощь с неконтролируемой кластеризацией данных большого размера. У меня есть данные с более чем 15 измерениями с примерно 50-80 тысячами строк. Данные выглядят примерно так (15 участников с поч…
0 ответов

IndexError: List index out of range error - при реализации алгоритма Affinity Propagation для вычисления расстояния Левенштейна - как cluster_id=-1

Проблема Это немаркированный набор данных с заголовком (строкой) items.categories, вам необходимо сгруппировать базовые строки на основе синтаксического сходства. например: одежда и одежда должны входить в одну группу. После некоторых исследований я…
0 ответов

Генерация функций с помощью кластеризации и конвейера

Кластеризация с использованием k-средних - это полезный способ создания новых функций в машинном обучении, как это объясняется здесь. Однако все примеры этого метода, которые я видел до сих пор, применяются отдельно, а не как часть конвейера предвар…
1 ответ

ValueError: '_index' - зарезервированное имя для столбцов фрейма данных.

Я пытаюсь сохранить файл в формате h5ad, и это значение выдает ошибку; ValueError: '_index' - зарезервированное имя для столбцов фрейма данных. import pandas as pd import scanpy as sc import numpy as np data = sc.read_h5ad('f.h5ad') annotation = pd.…
2 ответа

Sklearn кластеризация k-средних (взвешенная), определяющая оптимальный вес выборки для каждой функции?

K-означает кластеризацию в sklearn, количество кластеров известно заранее (равно 2). Есть несколько особенностей. Значения признаков изначально не имеют веса, т. е. они считаются одинаково взвешенными. Однако задача состоит в том, чтобы присвоить ка…
0 ответов

Визуализация кластера PAM по мере несходства с использованием пакета factoextra

Этот вопрос изначально был опубликован на Cross Validated , но закрыт из-за того, что он «не по теме». С тех пор я столкнулся с той же проблемой (проблемами) и задался вопросом, как ее можно решить программно. С использованиемfactoextra пакет из R, …