Нечеткое k-означает - без связи, как вычисляются центроиды на следующей итерации?
Согласно Mahout in Action
Как и k-средних, нечеткие k-средние циклы по всему набору данных, но вместо назначения векторов ближайшим центроидам, он вычисляет степень ассоциации точки для каждого из кластеров.
Без назначения векторов ближайшим центроидам, как вычисляются центроиды на следующей итерации?
1 ответ
Я просто погуглил нечеткие k-средства, и это звучало в основном как EM-кластеризация, которая является довольно широко известной и полезной концепцией.
Дело в том, что нет жестких заданий.
Когда точка выбирает, к какому центроиду она должна принадлежать, возникает вероятность ее принадлежности к каждому центроиду (с учетом ее расстояния от каждого центроида и нормализации этих чисел по их совокупной сумме).
Когда центроид решает, куда ему перемещаться, у него нет четко определенной группы точек, принадлежащих ему, чье среднее значение он может просто взять для своего нового местоположения. Вместо этого он берет средневзвешенное значение точек на основе вероятности, с которой они принадлежат. Таким образом, если есть только 3 точки X, Y и Z и X и Y принадлежат этому кластеру с вероятностью 1,0 каждый, а Z принадлежит ему с вероятностью 0,5, то новое местоположение центроида будет
(1,0/2,5) * X + (1,0/2,5) * Y + (0,5/2,5) * Z
Так вот как центроиды рассчитываются в каждой итерации.