Неконтролируемая кластеризация больших многомерных данных

Question

Неконтролируемая кластеризация больших многомерных данных

Здравствуйте, я новичок в машинном обучении. Мне нужна помощь с неконтролируемой кластеризацией данных большого размера. У меня есть данные с более чем 15 измерениями с примерно 50-80 тысячами строк. Данные выглядят примерно так (15 участников с почти равным количеством строк каждый и 15 функций) -

Данные состоят из множества участников, у каждого участника есть несколько строк данных, и они имеют отметки времени с их характеристиками. Моя цель - сгруппировать эти данные по участникам и сделать выводы на основе этих кластеров. Проблема здесь в том, что для каждого участника много строк, и я не могу представить каждого участника одной точкой, поэтому их кластеризация кажется сложной задачей.

Мне нужна помощь:

Как лучше всего сгруппировать эти данные, чтобы я мог делать выводы в соответствии с мнением участника?
Какой метод кластеризации мне следует использовать? Я пробовал Kmeans, meanshift и другие библиотеки sklearn, но они занимают слишком много времени и приводят к сбою моей системы.

Извините, если это немного сложно понять, я постараюсь ответить на ваши вопросы. Заранее благодарю за помощь. Если этот вопрос очень похож на какой-то другой, дайте мне знать (мне не удалось его найти).

Спасибо :)

0

python machine-learning cluster-analysis unsupervised-learning feature-clustering

Источник

19 авг '21 в 14:55

1 ответ

Другие вопросы по тегам python machine-learning cluster-analysis unsupervised-learning feature-clustering

user8098068 21 авг '21 в 19:52 2021-08-21 19:52 · Answer 1 · 2021-08-21 19:52

Поскольку у вас проблемы с необходимым объемом вычислений, вы должны пойти на какой-то компромисс. Вот несколько предложений, которые, вероятно, решат вашу проблему, но все они имеют свою цену.

Уменьшение размера, то есть PCA, чтобы уменьшить количество столбцов до ~2 или около того. Вы потеряете некоторую информацию, но сможете построить ее и сделать вывод с помощью K-средних.
Усредните данные пациентов. Не уверен, что этого будет достаточно, это зависит от ваших данных. Это приведет к потере постоянного наблюдения за вашими пациентами, но, вероятно, резко сократит количество строк.

Я предлагаю уменьшить размер, поскольку потеря данных о пациентах с течением времени может сделать ваши данные бесполезными. Помимо PCA есть и другие вещи, например, автокодировщики. Для кластеризации способа вашего описания я бы рекомендовал вам придерживаться K-средних или мягких K-средних.