Как выбрать подходящее значение квантиля при оценке пропускной способности в модуле MeanShift python?
Я выполняю среднюю смену кластеризации на наборе данных. Функция timate_bandwidth оценивает подходящую ширину полосы для выполнения кластеризации со средним сдвигом.
Синтаксис:
sklearn.cluster.estimate_bandwidth(X, quantile=0.3, n_samples=None, random_state=0)
Я обнаружил, что предполагаемая пропускная способность увеличивается с увеличением квантиля, что приводит к уменьшению количества кластеров. Точно так же уменьшение квантиля уменьшает пропускную способность и, следовательно, выше нет. кластеров.
Так что, похоже нет. кластеров зависит от выбранной квантильной стоимости.
Как выбрать оптимальный квантиль?
0 ответов
Квантиль используется в KNN (который используется внутри функции оценка_полосы) для определения полосы пропускания.
В частности:
n = количество образцов в KNN = количество образцов в партии * квантиль
Полоса пропускания будет затем рассчитываться на основе средних парных расстояний между выборками, которые находятся в одном кластере (возвращается KNN). Таким образом, вы можете использовать это, чтобы понять, как установить пропускную способность. Пропускная способность, возвращаемая этой функцией, будет в среднем покрывать n выборок, что сильно повлияет на количество кластеров, которые вернет Mean Shift.