Использование исходного кода ELKI для иерархической кластеризации

Я пытаюсь использовать ELKI (Среда для разработки KDD-приложений, поддерживаемых Index-Structures) для иерархической кластеризации. Поэтому несколько дней назад я импортировал исходный код ELKI (проекты Maven) и затем запустил miniGUI.

Мои вопросы:

  1. Я хочу использовать ResultVisulizer для результата. Однако я обнаружил, что в обработчике результатов нет элемента ResultVisulizer. Что я должен сделать, чтобы этот элемент ResultVisulizer был указан здесь?

  2. Я хочу увидеть дендрограмму иерархической кластеризации. Какие параметры должны быть установлены в этом miniGUI для этой цели?

1 ответ

Решение
  1. Чтобы включить визуализатор SVG, включите svg мавен профиль SVG добавляет около 17 МБ зависимостей, поэтому мы решили сделать этот модуль необязательным.

  2. В настоящее время в ELKI нет визуализации дендрограмм, потому что такие визуализации не очень масштабируемы; с более чем несколькими десятками экземпляров их становится трудно читать. Кроме того, на многих интересных наборах данных расстояния (высоты) слишком похожи, так что, к сожалению, дендрограмма снова не очень полезна.

    Если вы извлечете кластеры и упростите иерархию, ELKI отобразит дерево иерархии кластеров, но не будет использовать информацию о высоте (по причинам, указанным выше, и из соображений удобочитаемости). ELKI имеет мощные методы извлечения кластеров из иерархической кластеризации, которые недоступны в R.

    Вы можете внести свой вклад в визуализацию дендрограммы; но, пожалуйста, постарайтесь сделать его полезным для широкой пользовательской базы без необходимости слишком большой настройки.

Вот пример из R (Source) того, почему я не убежден в дендрограммах (и почему он находится в моем личном списке приоритетов - кто-то еще должен будет внести это в ELKI):Ошибка дендрограммы

Другие вопросы по тегам