Методы взвешивания для матрицы элементов документа в r

Я делаю проблему кластеризации, где я должен сделать кластер из текстовых данных, извлеченных из разных источников. Данные принадлежат разным полям, например, Math,Computer,Bio и т. Д. Я создал корпус в R и, используя пакет tm, предварительно обработал все данные, создал dtm и затем применил нечеткую (FCM) кластеризацию с использованием ppclust, fclust, однако результат был очень плохим., Затем попытался взвесить функции, используя tf и tf-idf. tf-idf немного улучшил мои результаты, используя нечеткую кластеризацию фанни из кластерного пакета, а не ppclust (FCM). Однако после повторного запуска кода с использованием fanny я получил "членство очень близко к 1/k. Возможно, уменьшите значение memb.exp", уменьшив его, это не решит проблему.

Может кто-нибудь из вас, пожалуйста, помогите мне найти лучший метод, библиотеку или код для взвешивания функций DTM. Кто-то сказал мне об энтропии, двоичном коде, хи-квадрат, получении информации и т. Д., Но я не могу найти код в R.

0 ответов

Другие вопросы по тегам