Неконтролируемая кластеризация больших многомерных данных
Здравствуйте, я новичок в машинном обучении. Мне нужна помощь с неконтролируемой кластеризацией данных большого размера. У меня есть данные с более чем 15 измерениями с примерно 50-80 тысячами строк. Данные выглядят примерно так (15 участников с почти равным количеством строк каждый и 15 функций) -
Данные состоят из множества участников, у каждого участника есть несколько строк данных, и они имеют отметки времени с их характеристиками. Моя цель - сгруппировать эти данные по участникам и сделать выводы на основе этих кластеров. Проблема здесь в том, что для каждого участника много строк, и я не могу представить каждого участника одной точкой, поэтому их кластеризация кажется сложной задачей.
Мне нужна помощь:
Как лучше всего сгруппировать эти данные, чтобы я мог делать выводы в соответствии с мнением участника?
Какой метод кластеризации мне следует использовать? Я пробовал Kmeans, meanshift и другие библиотеки sklearn, но они занимают слишком много времени и приводят к сбою моей системы.
Извините, если это немного сложно понять, я постараюсь ответить на ваши вопросы. Заранее благодарю за помощь. Если этот вопрос очень похож на какой-то другой, дайте мне знать (мне не удалось его найти).
Спасибо :)
1 ответ
Поскольку у вас проблемы с необходимым объемом вычислений, вы должны пойти на какой-то компромисс. Вот несколько предложений, которые, вероятно, решат вашу проблему, но все они имеют свою цену.
Уменьшение размера, то есть PCA, чтобы уменьшить количество столбцов до ~2 или около того. Вы потеряете некоторую информацию, но сможете построить ее и сделать вывод с помощью K-средних.
Усредните данные пациентов. Не уверен, что этого будет достаточно, это зависит от ваших данных. Это приведет к потере постоянного наблюдения за вашими пациентами, но, вероятно, резко сократит количество строк.
Я предлагаю уменьшить размер, поскольку потеря данных о пациентах с течением времени может сделать ваши данные бесполезными. Помимо PCA есть и другие вещи, например, автокодировщики. Для кластеризации способа вашего описания я бы рекомендовал вам придерживаться K-средних или мягких K-средних.