Алгоритм кластеризации для измерений средней энергии

У меня есть набор данных, который состоит из точек данных, имеющих такие атрибуты, как:

  • среднесуточное потребление энергии
  • среднесуточная выработка энергии
  • тип источника энергии
  • среднесуточная энергия, подаваемая в сеть
  • ежедневный тариф на электроэнергию

Я новичок в технике кластеризации.

Поэтому мой вопрос в том, какой алгоритм кластеризации будет наилучшим для такого типа данных для формирования кластеров?

4 ответа

1) Сначала попробуйте с помощью k-средних. Если это удовлетворяет вашему требованию, то это все. Играйте с разным количеством кластеров (управляется параметром k). Существует множество реализаций k-средних, и вы можете реализовать свою собственную версию, если у вас есть хорошие навыки программирования.

К-среднее обычно хорошо работает, если данные выглядят как круглая / сферическая форма. Это означает, что в данных присутствует некоторая гауссовость (данные поступают из гауссовского распределения).

2) если k-means не соответствует вашим ожиданиям, пришло время больше читать и думать. Тогда я предлагаю прочитать хороший обзорный документ. Наиболее распространенные методы реализованы на нескольких языках программирования и в средах интеллектуального анализа данных, многие из которых можно бесплатно загрузить и использовать.

3) если применения современных методов кластеризации недостаточно, пришло время разработать новый метод. Тогда вы можете думать самостоятельно или общаться с экспертом по машинному обучению.

Более простой способ кластеризации - алгоритм kmeans. Если все ваши атрибуты являются числовыми, то это самый простой способ кластеризации. Даже если это не так, вам придется найти меру расстояния для катерогенных или номинальных атрибутов, но все же kmeans - это хороший выбор. Kmeans - это алгоритм секционированной кластеризации... я бы не использовал иерархическую кластеризацию для этого случая. Но это также зависит от того, что вы хотите сделать. вам нужно оценить, хотите ли вы найти кластеры внутри кластеров, или они все должны быть полностью отделены друг от друга и не включены друг в друга.

Береги себя.

Я думаю, что иерархическая кластеризация - хороший выбор. Посмотрите здесь Алгоритмы кластеризации

Поскольку большая часть ваших данных является непрерывной, и было бы разумно предположить, что потребление энергии и генерация обычно распределяются, я бы использовал статистические методы для кластеризации.

Такие как:

Преимущество этих методов перед алгоритмами кластеризации на основе метрик (например, k-средних) заключается в том, что мы можем использовать тот факт, что мы имеем дело со средними, и мы можем делать предположения о распределениях, из которых были рассчитаны эти средние.

Другие вопросы по тегам