Как совместить кластеризацию K-средних с наивным байесовским
Недавно я прочитал статью о K-средних и наивном байесовском подходе к обучению. Но я не совсем понимаю, как объединить эти два метода вместе.
Например, X(x1,x2,x3,...,xn) обозначает запись данных. Метка обозначает класс, к которому принадлежит запись данных Xi. Предположим, есть два класса, обозначенные как K1 и K2. Итак, у нас всегда Xi (i∈[1,n]) принадлежит {K1,K2}
Как известно, метод K-средних может кластеризовать запись данных X. Предположим, что K=2. Тогда Clx(Clx(i)∈{1,2}, i∈[1,n]) обозначают результат кластеризации.
Наивный байесовец может рассчитать вероятность. если P(K1|X)>P(K2|X)}, то образец X может быть классифицирован как класс K1. В противном случае X можно отнести к классу K2.
Мы можем вычислить вероятность, используя теорему Байеса.
P (K1 | X) = P (X | K1) P (K1) / P (X) = P (x1 | K1) P (x2 | K1)... P (х |K1)/P(X)
Но как мне совместить K-средства с наивным байесовским?
Итак, я думаю, что я могу использовать XX обозначает (X,Clx). И затем использовать XX для обучения наивного байесовского классификатора, такого как nb=NaiveBayes.fit(XX,Label,'Distribution', 'normal').
Затем я проверяю классификатор, который тренировался ранее, результат такой удручающий.
Я ошибся?
Это способ объединить эти два метода?
1 ответ
После некоторого быстрого поиска в Google я пришел к этой статье Muda et al. который описывает комбинацию K-средних-NB для задачи обнаружения вторжения.
Модель состоит из нескольких классификаторов NB, каждый из которых обучается на подмножестве данных, соответствующих конкретному кластеру K-средних. Авторы не дают каких-либо теоретических обоснований для предлагаемой комбинации, и я думаю, что причина проста: нет [*]. Предварительная обработка K-средних используется в качестве специального способа обучения нескольких различных классификаторов NB. Тот же результат может быть достигнут при использовании надлежащего метода ансамблирования, например, упаковки в мешки, повышения или укладки.
[*] Вы можете рассматривать комбинацию как иерархическую вероятностную модель. Но предположения о такой модели были бы противоречивыми. При условии кластера X предполагается выборкой из многомерного гауссиана (предположение K-средних) и, в то же время, из смеси многомерных гауссианов (предположение Гаусса NB). Ясно, что оба они не могут держаться одновременно.