Предложение по алгоритму кластеризации?
У меня есть набор данных 590000 записей после предварительной обработки, и я хотел найти кластеры из него, и он содержит строковые данные (сейчас предположим, что у меня есть только один столбец с 590000 уникальных значений в наборе данных). Также я использую пользовательскую меру расстояния, необходимую для расчета матрицы расстояний размером 590000*590000. Используя некоторую логику разбиения, я создал матрицу расстояний, но не могу объединить эти разделы в одну матрицу больших расстояний из-за ограничений памяти. У кого-нибудь есть какие-либо идеи, чтобы решить это?? Я выбрал DBSCAN для этого. Есть ли способ использовать методологии глубокого обучения? любые другие идеи
1 ответ
Сначала используйте управляемый образец.
Потому что я сомневаюсь, что результаты будут достаточно хороши, чтобы оправдать любые попытки масштабирования метода, который все равно не работает.