Как выбрать подходящее значение квантиля при оценке пропускной способности в модуле MeanShift python?

Я выполняю среднюю смену кластеризации на наборе данных. Функция timate_bandwidth оценивает подходящую ширину полосы для выполнения кластеризации со средним сдвигом.

Синтаксис:

sklearn.cluster.estimate_bandwidth(X, quantile=0.3, n_samples=None, random_state=0)

Я обнаружил, что предполагаемая пропускная способность увеличивается с увеличением квантиля, что приводит к уменьшению количества кластеров. Точно так же уменьшение квантиля уменьшает пропускную способность и, следовательно, выше нет. кластеров.

Так что, похоже нет. кластеров зависит от выбранной квантильной стоимости.

Как выбрать оптимальный квантиль?

0 ответов

Квантиль используется в KNN (который используется внутри функции оценка_полосы) для определения полосы пропускания.
В частности:

n = количество образцов в KNN = количество образцов в партии * квантиль

Полоса пропускания будет затем рассчитываться на основе средних парных расстояний между выборками, которые находятся в одном кластере (возвращается KNN). Таким образом, вы можете использовать это, чтобы понять, как установить пропускную способность. Пропускная способность, возвращаемая этой функцией, будет в среднем покрывать n выборок, что сильно повлияет на количество кластеров, которые вернет Mean Shift.

Другие вопросы по тегам