Использование исходного кода ELKI для иерархической кластеризации
Я пытаюсь использовать ELKI (Среда для разработки KDD-приложений, поддерживаемых Index-Structures) для иерархической кластеризации. Поэтому несколько дней назад я импортировал исходный код ELKI (проекты Maven) и затем запустил miniGUI.
Мои вопросы:
Я хочу использовать ResultVisulizer для результата. Однако я обнаружил, что в обработчике результатов нет элемента ResultVisulizer. Что я должен сделать, чтобы этот элемент ResultVisulizer был указан здесь?
Я хочу увидеть дендрограмму иерархической кластеризации. Какие параметры должны быть установлены в этом miniGUI для этой цели?
1 ответ
Чтобы включить визуализатор SVG, включите
svg
мавен профиль SVG добавляет около 17 МБ зависимостей, поэтому мы решили сделать этот модуль необязательным.В настоящее время в ELKI нет визуализации дендрограмм, потому что такие визуализации не очень масштабируемы; с более чем несколькими десятками экземпляров их становится трудно читать. Кроме того, на многих интересных наборах данных расстояния (высоты) слишком похожи, так что, к сожалению, дендрограмма снова не очень полезна.
Если вы извлечете кластеры и упростите иерархию, ELKI отобразит дерево иерархии кластеров, но не будет использовать информацию о высоте (по причинам, указанным выше, и из соображений удобочитаемости). ELKI имеет мощные методы извлечения кластеров из иерархической кластеризации, которые недоступны в R.
Вы можете внести свой вклад в визуализацию дендрограммы; но, пожалуйста, постарайтесь сделать его полезным для широкой пользовательской базы без необходимости слишком большой настройки.
Вот пример из R (Source) того, почему я не убежден в дендрограммах (и почему он находится в моем личном списке приоритетов - кто-то еще должен будет внести это в ELKI):