Кластеризация текстовых документов на основе PSO и K-средних в R

Я новичок в оптимизации частиц. Я прочитал исследовательскую работу по кластеризации на основе PSO и K-средних, но я не нашел ни одного рабочего примера того же. Любая помощь очень ценится. Заранее спасибо!

Я хочу выполнить кластеризацию текстовых документов с использованием PSO и K-средних в R. У меня есть основная идея, что сначала PSO даст мне оптимизированные значения центроидов кластера, а затем я должен использовать это оптимизированное значение центроидов кластера PSO в качестве начальный кластерный центроид для k-означает получить кластер документов.

Ниже приведены коды, которые описывают то, что я сделал до сих пор!

#Import library
library(pdist)
library(hydroPSO)

#Create matrix and suppose it is our document term matrix which we get after
the cleaning of corpus

(В моих фактических данных у меня есть 20 документов с 951 термином, т.е. dim (dtm) = 20 * 951)

matri <- matrix(data = seq(1, 20, 1), nrow = 4, ncol = 7, byrow = TRUE)  
matri
      [,1] [,2] [,3] [,4] [,5] [,6] [,7]
[1,]    1    2    3    4    5    6    7
[2,]    8    9   10   11   12   13   14
[3,]   15   16   17   18   19   20    1
[4,]    2    3    4    5    6    7    8

#Initially select first and second row as centroids
cj <- matri[1:2,]

#Calculate Euclidean Distance of each data point from centroids
vm <- as.data.frame(t(as.matrix(pdist(matri, cj))))
vm
     V1       V2       V3        V4
1  0.00000  18.52026 34.81379  2.645751
2 18.52026  0.00000  21.51744 15.874508

#Create binary matrix S in which 1 means Instance Ii is allocated to the cluster Cj otherwise 0.  
S <- matrix(data = NA, nrow = nrow(vm), ncol = ncol(vm))

for(i in 1:nrow(vm)){
  for(j in 1:ncol(vm)){
       cd <- which.min(vm[, j])
       ifelse(cd==i,  S[i,j] <-1, S[i,j] <-0)

     }
  }

S
      [,1] [,2] [,3] [,4]
[1,]    1    0    0    1
[2,]    0    1    1    0

#Apply `hydroPSO()` to get optimised values of centroids.
set.seed(5486)
D <- 4 # Dimension
lower <- rep(0, D)
upper <- rep(10, D)
m_s <- matrix(data = NA, nrow = nrow(S), ncol = ncol(matri))
Fn= function(y) {  #Objective Function which has to be minimised

for(j in 1:ncol(matri)){
    for(i in 1:nrow(matri)){
        for(k in 1:nrow(y)){
            for(l in 1:ncol(y)){
                m_s[k,] <- colSums(matri[y[k,]==1,])/sum(y[k,])
            }
        }
     }
}

  sm <- sum(m_s)/ nrow(S)
  return(sm)

  }

hh1 <- hydroPSO(S,fn=Fn, lower=lower, upper=upper,
                control=list(write2disk=FALSE, npart=3))

Но выше hydroPSO() функция не работает. Это дает ошибку Ошибка в 1:nrow(y): аргумент длины 0. Я искал это, но не получил никакого решения, которое работает для меня.

Я также внес некоторые изменения в свою целевую функцию, и на этот раз hydroPSO() сработал, но, думаю, не правильно. Я передаю свою исходную матрицу центроида в качестве параметра, размерность которого составляет 2*7, но функция возвращает только 1*7 оптимизированных значений. Я не понимаю его причину.

set.seed(5486)
D <- 7# Dimension
lower <- rep(0, D)
upper <- rep(10, D)

Fn = function(x){
vm <- as.data.frame(t(as.matrix(pdist(matri, x))))

S <- matrix(data = NA, nrow = nrow(vm), ncol = ncol(vm))

for(i in 1:nrow(vm)){
  for(j in 1:ncol(vm)){
       cd <- which.min(vm[, j])
       ifelse(cd==i,  S[i,j] <-1, S[i,j] <-0)

     }
  }

  m_s <- matrix(data = NA, nrow = nrow(S), ncol = ncol(matri))

 for(j in 1:ncol(matri)){
    for(i in 1:nrow(matri)){
        for(k in 1:nrow(S)){
            for(l in 1:ncol(S)){
                m_s[k,] <- colSums(matri[S[k,]==1,])/sum(S[k,])
            }
        }
    }
  }

sm <- sum(m_s)/ nrow(S)
return(sm)

}
hh1 <- hydroPSO(cj,fn=Fn, lower=lower, upper=upper,
                  control=list(write2disk=FALSE, npart=2, K=2))  

Вывод вышеуказанной функции.

## $par
## Param1    Param2    Param3    Param4    Param5    Param6  Param7 
## 8.6996174 2.1952303 5.6903588 0.4471795 3.7103161 1.6605425 8.2717574 
## 
## $value
## [1] 61.5
## 
## $best.particle
## [1] 1
## 
## $counts
## function.calls     iterations    regroupings 
##           2000           1000              0 
## 
## $convergence
## [1] 3
## 
## $message
## [1] "Maximum number of iterations reached"

Я предполагаю, что передаю параметры hydroPSO() неправильно. Пожалуйста, поправьте меня, где я делаю это неправильно.

Большое спасибо!

1 ответ

Решение

Вместо передачи CJ в hydroPSO() Я использовал as.vector(t(cj)) во втором подходе, и он работал нормально для меня. Я получил 14 оптимизированных значений

Другие вопросы по тегам