Кластеризация с визуализацией данных
Формат моего входного файла следующий:
PERSON1 BUILDING1
PERSON2 BUILDING4
PERSON3 BUILDING4
PERSON5 BUILDING3
PERSON3 BUILDING2
PERSON3 BUILDING1
PERSON5 BUILDING6
PERSON4 BUILDING6
1000 more rows like this
Каждый ряд должен читаться так: "Человек Х посетил здание Y"
Я просто хочу иметь такие кластеры:
Cluster 1 : Persons that visited only 1 building (the same building)
Cluster 2 : Persons that visited only 2 buildings (the same buildings, let's say building 1 & 2)
Cluster 3 : Persons that visited only 2 buildings (the same buildings, let's say building 3 & 4)
Cluster 4 : Persons that visited only 3 buildings (the same buildings)
etc..
Каков будет лучший способ сделать это? Есть ли в идеале программное обеспечение с визуализацией данных, которое может это сделать? Я попробовал Knime безуспешно.
2 ответа
Вам необходимо соответствующим образом переформатировать ваши данные.
Используйте операцию group_by, основанную на наборе посещенных зданий.
Это намного проще, чем кластеризация.
Во-вторых, @Anony-Mousse решения больше похожи на использование "group by", чем на кластеризацию. Итак, с целью доказать, что это работает, я создал простой код, в котором knime получил ожидаемый результат. Затем, для части визуализации, которую вы упомянули, возможно, анализ корреспонденции мог бы быть полезным.
эта диаграмма реализована в R (вы можете использовать узел R) и показывает, как связана сущность (скажем, посетители синего цвета) с другой сущностью (скажем, зданиями красного цвета), но, конечно, правильная диаграмма зависит от ваших полных данных и намерений,