Неконтролируемая кластеризация больших многомерных данных

Здравствуйте, я новичок в машинном обучении. Мне нужна помощь с неконтролируемой кластеризацией данных большого размера. У меня есть данные с более чем 15 измерениями с примерно 50-80 тысячами строк. Данные выглядят примерно так (15 участников с почти равным количеством строк каждый и 15 функций) -

Данные состоят из множества участников, у каждого участника есть несколько строк данных, и они имеют отметки времени с их характеристиками. Моя цель - сгруппировать эти данные по участникам и сделать выводы на основе этих кластеров. Проблема здесь в том, что для каждого участника много строк, и я не могу представить каждого участника одной точкой, поэтому их кластеризация кажется сложной задачей.

Мне нужна помощь:

  1. Как лучше всего сгруппировать эти данные, чтобы я мог делать выводы в соответствии с мнением участника?

  2. Какой метод кластеризации мне следует использовать? Я пробовал Kmeans, meanshift и другие библиотеки sklearn, но они занимают слишком много времени и приводят к сбою моей системы.

Извините, если это немного сложно понять, я постараюсь ответить на ваши вопросы. Заранее благодарю за помощь. Если этот вопрос очень похож на какой-то другой, дайте мне знать (мне не удалось его найти).

Спасибо :)

1 ответ

Поскольку у вас проблемы с необходимым объемом вычислений, вы должны пойти на какой-то компромисс. Вот несколько предложений, которые, вероятно, решат вашу проблему, но все они имеют свою цену.

  1. Уменьшение размера, то есть PCA, чтобы уменьшить количество столбцов до ~2 или около того. Вы потеряете некоторую информацию, но сможете построить ее и сделать вывод с помощью K-средних.

  2. Усредните данные пациентов. Не уверен, что этого будет достаточно, это зависит от ваших данных. Это приведет к потере постоянного наблюдения за вашими пациентами, но, вероятно, резко сократит количество строк.

Я предлагаю уменьшить размер, поскольку потеря данных о пациентах с течением времени может сделать ваши данные бесполезными. Помимо PCA есть и другие вещи, например, автокодировщики. Для кластеризации способа вашего описания я бы рекомендовал вам придерживаться K-средних или мягких K-средних.