Как индексировать с помощью ELKI - OPTICS кластеризация
Я новичок в ELKI, и я использовал его, чтобы кластеризовать около 10 тысяч точек из файла.csv. Как только я получу правильные настройки, я хочу увеличить масштаб до 1 мм.
Я использую алгоритм OPTICSXi с LngLatDistanceFunction
Я продолжаю читать о "включении индекса R*-дерева с массовой загрузкой STR", чтобы увидеть значительные улучшения в производительности. Учебники не очень помогли мне.
Любые советы о том, как я могу реализовать эту функцию?
1 ответ
Предлагаемые параметры для использования пространственного индекса R* на двумерных данных:
-db.index tree.spatial.rstarvariants.rstar.RStarTreeFactory
-pagefile.pagesize 512
-spatial.bulkstrategy SortTileRecursiveBulkSplit
Для данных большего размера необходимы большие размеры страниц. Размер страницы 512-1024 байта, кажется, самое подходящее место для двумерных данных, но это также зависит от ваших данных.
Чтобы дискретизировать кластеры, вы можете использовать извлечение Xi:
-algorithm clustering.optics.OPTICSXi -opticsxi.xi 0.005
Чтобы воспользоваться преимуществами ускорения индекса с помощью OPTICS, выберите эпсилон как можно меньшего размера для своего приложения. Параметр в метрах со всеми моделями земли в ELKI.
-opticsxi.algorithm OPTICSHeap
-algorithm.distancefunction geo.LatLngDistanceFunction
-optics.epsilon 2000.0 -optics.minpts 10
использует максимум 2 км.
Удостоверьтесь, чтобы отличить latitude,longitude
а также longitude,latitude
, Оба ордера используются, и вам нужно использовать правильную функцию расстояния:
geo.LatLngDistanceFunction
geo.LngLatDistanceFunction