Предложение по алгоритму кластеризации?

Question

Предложение по алгоритму кластеризации?

У меня есть набор данных 590000 записей после предварительной обработки, и я хотел найти кластеры из него, и он содержит строковые данные (сейчас предположим, что у меня есть только один столбец с 590000 уникальных значений в наборе данных). Также я использую пользовательскую меру расстояния, необходимую для расчета матрицы расстояний размером 590000*590000. Используя некоторую логику разбиения, я создал матрицу расстояний, но не могу объединить эти разделы в одну матрицу больших расстояний из-за ограничений памяти. У кого-нибудь есть какие-либо идеи, чтобы решить это?? Я выбрал DBSCAN для этого. Есть ли способ использовать методологии глубокого обучения? любые другие идеи

-4

apache-spark deep-learning cluster-analysis dbscan hdbscan

Источник

user4732694 26 июн '19 в 16:29

1 ответ

Другие вопросы по тегам apache-spark deep-learning cluster-analysis dbscan hdbscan

user1060350 27 июн '19 в 08:54 2019-06-27 08:54 · Answer 1 · 2019-06-27 08:54

Сначала используйте управляемый образец.

Потому что я сомневаюсь, что результаты будут достаточно хороши, чтобы оправдать любые попытки масштабирования метода, который все равно не работает.

0

Источник

user1060350 27 июн '19 в 08:54