Описание тега feature-clustering
1
ответ
Кластеризация по параметрам модели
Я пытался выполнить кластеризацию на основе параметров модели SGD (Coefficient и Intercept). coef_ содержит веса w, а intercept_ содержит b. Как можно использовать эти параметры с кластеризацией (KMedoids) для группы изученной модели? import numpy a…
04 авг '20 в 15:50
0
ответов
Как сгруппировать набор точек с учетом расстояний между ними?
У меня есть набор точек данных, которые похожи по форме. Их сходство колеблется от 0 до 1. Я хотел бы сгруппировать эти точки данных на основе их сходства. Ниже приведен пример имеющихся у меня данных: ("a", "b", 0.5) <- (&quo…
04 июл '20 в 16:23
0
ответов
Векторное квантование LBG - коэффициент разделения
Сейчас делаю программу для распознавания речи. На этапе создания кодовой книги с использованием алгоритма LBG (Linde-Buzo-Gray) я читал, что коэффициент разделения epsilon = 0,01 (обычно) Коэффициент разделения используется для разделения центроида …
13 сен '20 в 07:23
1
ответ
Как получить данные плитки от сервера векторных плиток ClusterBuster в примере примера?
Резюме Похоже, ребята отлично поработали со встроенными фильтрами, кластеризацией и кешированием на сервере векторных листов ClusterBuster. Я очень взволнован этим проектом, который выглядит очень многообещающим, и я очень хочу его попробовать! Я ра…
23 сен '20 в 14:54
1
ответ
Кластеризация вокруг фиксированного вектора значений
У меня есть набор данных брендов с различными функциями, такими как калории, содержание сахара, содержание клетчатки и т. Д., Например С помощью dput(): structure(list(Row = 1:30, Brands = structure(c(1L, 112L, 223L, 242L, 253L, 264L, 275L, 286L, 29…
01 дек '20 в 01:10
0
ответов
Преобразование данных в вектор признаков
У меня есть демографические данные пользователей из данных MovieLens. и я пытаюсь применить к нему алгоритм kmeans. Age Occupation Zip-code 0 1 10 48067 1 56 16 70072 2 25 15 55117 3 45 7 2460 4 25 20 55455 Я хочу преобразовать его в такой вектор фу…
05 окт '20 в 12:24
0
ответов
Может ли кластеризация в низком измерении точнее, чем в высоком измерении?
У меня вопрос о скрытом пространстве. В GAN или AE есть скрытое пространство, которое уменьшает размер набора данных. Я учусь с набором данных KDD CUP. Есть ли вероятность, что кластеризация объектов, извлеченных из низкой размерности (скрытого прос…
23 мар '21 в 09:39
0
ответов
Python: кластеризация с использованием текста, категорий и даты
Пытаюсь сделать кластеризацию техпроцессов. в моем наборе данных есть много текстовых данных, которые я уже сгруппировал с помощью TF-IDF и k-means. Теперь я хочу также использовать некоторые другие функции, такие как названия отделов (которые являю…
25 мар '21 в 19:51
0
ответов
Кластеризация без надзора для многомерных данных в модели Keras?
В настоящее время я обучаю автоэнкодера изучать представления функций с помощью встраиваний. Моя конечная цель - сгруппировать изученные представления и масштабировать их до трех измерений для визуализации. Моя проблема в том, что я не знаю, как изу…
27 апр '21 в 12:03
0
ответов
Сопряжение местоположений с учетом геопространственных данных
У меня есть две следующие фиктивные таблицы данных. Первый - это таблица данных, содержащая широту и долготу различных местоположений магазинов, их тип и общий числовой идентификатор этого магазина. Это выглядит примерно так: ID lat long type 1 1 -3…
27 апр '21 в 16:06
1
ответ
k-среднее кластеризация - инерция только увеличивается
Я пытаюсь использовать кластеризацию KMeans из faiss на наборе данных позы суставов тела человека. У меня 16 частей тела, то есть размер 32. Суставы масштабируются в диапазоне от 0 до 1. Мой набор данных состоит из ~ 900000 экземпляров. Как упомянул…
15 май '21 в 23:36
0
ответов
Кластеризация с помощью NMF(неотрицательная матричная факторизация)
Я работаю над данными о трафике, чтобы оценить время прибытия автобуса. Я пытаюсь использовать NMF для кластеризации сегментов (каждый сегмент от остановки I до следующей остановки I + 1) в k кластеров, где каждый кластер имеет сегменты с одинаковым…
24 июн '21 в 07:49
0
ответов
как применить K-means++ только к «1 измерению» массива numpy и сохранить другое измерение как есть
У меня есть примененный алгоритм k-средних по форме (2048, 475). Я использовал следующий код from sklearn.cluster import KMeans model = KMeans(n_clusters=36, random_state=42) model.fit(abc) labels = model.labels_ print(labels) Я хочу применить класт…
07 июл '21 в 14:47
0
ответов
Как сгруппировать объект, состоящий из 80000 уникальных записей, в более мелкие группы [закрыто]
В настоящее время я работаю с набором данных профиля пациента в своей компании, который состоит из более чем 20 миллионов строк наблюдений, каждая из которых имеет функцию назначения, которая назначается каждому пациенту. Проблема в том, что существ…
16 авг '21 в 20:17
1
ответ
Неконтролируемая кластеризация больших многомерных данных
Здравствуйте, я новичок в машинном обучении. Мне нужна помощь с неконтролируемой кластеризацией данных большого размера. У меня есть данные с более чем 15 измерениями с примерно 50-80 тысячами строк. Данные выглядят примерно так (15 участников с поч…
19 авг '21 в 14:55
0
ответов
IndexError: List index out of range error - при реализации алгоритма Affinity Propagation для вычисления расстояния Левенштейна - как cluster_id=-1
Проблема Это немаркированный набор данных с заголовком (строкой) items.categories, вам необходимо сгруппировать базовые строки на основе синтаксического сходства. например: одежда и одежда должны входить в одну группу. После некоторых исследований я…
21 авг '21 в 21:26
0
ответов
Генерация функций с помощью кластеризации и конвейера
Кластеризация с использованием k-средних - это полезный способ создания новых функций в машинном обучении, как это объясняется здесь. Однако все примеры этого метода, которые я видел до сих пор, применяются отдельно, а не как часть конвейера предвар…
22 авг '21 в 14:31
1
ответ
ValueError: '_index' - зарезервированное имя для столбцов фрейма данных.
Я пытаюсь сохранить файл в формате h5ad, и это значение выдает ошибку; ValueError: '_index' - зарезервированное имя для столбцов фрейма данных. import pandas as pd import scanpy as sc import numpy as np data = sc.read_h5ad('f.h5ad') annotation = pd.…
05 дек '21 в 14:54
2
ответа
Sklearn кластеризация k-средних (взвешенная), определяющая оптимальный вес выборки для каждой функции?
K-означает кластеризацию в sklearn, количество кластеров известно заранее (равно 2). Есть несколько особенностей. Значения признаков изначально не имеют веса, т. е. они считаются одинаково взвешенными. Однако задача состоит в том, чтобы присвоить ка…
05 янв '21 в 18:12
0
ответов
Визуализация кластера PAM по мере несходства с использованием пакета factoextra
Этот вопрос изначально был опубликован на Cross Validated , но закрыт из-за того, что он «не по теме». С тех пор я столкнулся с той же проблемой (проблемами) и задался вопросом, как ее можно решить программно. С использованиемfactoextra пакет из R, …
28 янв '21 в 20:20