Как индексировать с помощью ELKI - OPTICS кластеризация

Я новичок в ELKI, и я использовал его, чтобы кластеризовать около 10 тысяч точек из файла.csv. Как только я получу правильные настройки, я хочу увеличить масштаб до 1 мм.

Я использую алгоритм OPTICSXi с LngLatDistanceFunction

Я продолжаю читать о "включении индекса R*-дерева с массовой загрузкой STR", чтобы увидеть значительные улучшения в производительности. Учебники не очень помогли мне.

Любые советы о том, как я могу реализовать эту функцию?

1 ответ

Решение

Предлагаемые параметры для использования пространственного индекса R* на двумерных данных:

-db.index tree.spatial.rstarvariants.rstar.RStarTreeFactory
-pagefile.pagesize 512
-spatial.bulkstrategy SortTileRecursiveBulkSplit

Для данных большего размера необходимы большие размеры страниц. Размер страницы 512-1024 байта, кажется, самое подходящее место для двумерных данных, но это также зависит от ваших данных.

Чтобы дискретизировать кластеры, вы можете использовать извлечение Xi:

-algorithm clustering.optics.OPTICSXi -opticsxi.xi 0.005

Чтобы воспользоваться преимуществами ускорения индекса с помощью OPTICS, выберите эпсилон как можно меньшего размера для своего приложения. Параметр в метрах со всеми моделями земли в ELKI.

-opticsxi.algorithm OPTICSHeap
-algorithm.distancefunction geo.LatLngDistanceFunction
-optics.epsilon 2000.0 -optics.minpts 10

использует максимум 2 км.

Удостоверьтесь, чтобы отличить latitude,longitude а также longitude,latitude, Оба ордера используются, и вам нужно использовать правильную функцию расстояния:

geo.LatLngDistanceFunction
geo.LngLatDistanceFunction
Другие вопросы по тегам