Кластеризация подпространства с использованием CLIQUE в ELKI
Я пытаюсь обнаружить плотные подпространства из многомерного набора данных. Для этого я хочу использовать библиотеку ELKI. Но документации и примеров библиотеки ELKI очень мало.
Я попробовал следующее-
Database db=makeSimpleDatabase("D:/sample.csv", 600);
ListParameterization params = new ListParameterization();
params.addParameter(CLIQUE.TAU_ID, "0.1");
params.addParameter(CLIQUE.XSI_ID, 20);
// setup algorithm
CLIQUE<DoubleVector> clique = ClassGenericsUtil.parameterizeOrAbort(CLIQUE.class, params);
// run CLIQUE on database
Clustering<SubspaceModel<DoubleVector>> result = clique.run(db);
for(Cluster<?> cl : result.getToplevelClusters()) {
System.out.println(cl.getIDs());
}
Я дал следующий вклад
2,2
2,3
5,2
5,3
8,4
и результат был-
[2, 1]
[4, 3]
[5]
[3, 1]
[4, 2]
[5]
[1]
[2]
[3]
[4]
[5]
Я ожидаю вывод как входные точки данных, сгруппированные в подпространства. Может быть, я выбираю неправильные значения или неправильно настраиваю параметры.
Пожалуйста помоги. Заранее спасибо.
1 ответ
Обратите внимание, что CLIQUE создает перекрывающиеся кластеры.
Элементы могут быть от 0 до нескольких кластеров одновременно. Если вы неправильно выберете свои параметры (и параметры CLIQUE, кажется, действительно трудно выбрать), вы получите странные результаты. В вашем случае это, кажется, 11 кластеров, несмотря на то, что в вашем наборе данных всего 5 элементов.
По сути, кластеризация говорит вам:
Элементы [2,1] кластера (они оба имеют х =2)
Элементы [4,3] кластера (они оба имеют х =5)
Элемент [5] является кластером (только элемент с x=8)
Элементы [3,1] кластера (оба имеют у =2)
Элементы [4,2] кластера (оба имеют y=3)
Элемент [5] является кластером (только элемент с y=4)
В подпространстве x,y каждый элемент является отдельным и имеет свой собственный кластер.
Выберите лучшие параметры для этого хрупкого алгоритма.
TAU = 0,1 (10% из 5 баллов): все, что больше 0,5 балла, является кластером... другими словами, все. Вот почему вы получаете этот результат - вы просили его.