Как мне узнать, насколько хорошо сработала моя кластеризация геопространственных данных?

У меня есть несколько координатных точек, каждая из которых связана с определенным ориентиром, однако они имеют различную и неизвестную степень точности. Для каждого из этих ориентиров у меня есть координаты, когда посетитель говорит, что он "в ориентире".

Я хотел бы использовать координаты "на ориентире" для повышения точности ориентиров для будущих посетителей. Однако, когда я изменяю параметры алгоритма кластеризации, у меня действительно нет возможности узнать, улучшаю ли я вероятность того, что я реально улучшу существующие места или нет, в среднем.

Я хотел бы создать объективную функцию, которую я мог бы использовать в качестве прокси для этого - какие-нибудь мысли?

Обратите внимание, что вызовы API карт Google, вероятно, будут ненадежными из-за несовершенных адресов ориентиров.

2 ответа

Если вы хотите свести все эти пользовательские теги к одной координате, я бы предложил (кроме линии даты) просто использовать медиану.

Причина в том, что медиана имеет очень высокую точку разрыва, то есть она устойчива к выбросам.

Одним из примеров является задняя часть модели гауссовой смеси. Вы можете найти несколько примеров здесь: https://ch.mathworks.com/help/stats/clustering-using-gaussian-mixture-models.html

Конечно, есть и другие алгоритмы кластеризации. Какой вы используете?

Другие вопросы по тегам