Как сделать кластеризацию текста по косинусному сходству
Я использую WEKA для выполнения сбора текста. Предположим, у меня есть n документов с текстом, я вычислил TFID как вектор признаков для каждого документа и затем вычислил косинусное сходство между каждым из каждого документа. Теперь мне интересно, как использовать эту матрицу nxn в алгоритме k-среднего. я знаю, что могу применить некоторые измерения размеров, такие как MDS или PCA. Что меня смущает, так это то, что после применения уменьшения размеров, как я буду идентифицировать сам этот документ, например, если у меня будет 3 документа d1,d2 d3, то косинус даст мне расстояния между d11,d12,d13 d21,d22,d23 d31,d32,d33 теперь я не уверен, что будет выводиться после PCA или MDS и как я буду идентифицировать документы после kmean. Пожалуйста, предложите. Я надеюсь, что я четко сформулировал свой вопрос
1 ответ
PCA используется на необработанных данных, а не на расстояниях, т.е. PCA(X)
,
MDS использует функцию расстояния, т.е. MDS(X, cosine)
,
Вы, кажется, считаете, что вам нужно бежать PCA(cosine(X))
? Это не работает
Ты хочешь бежать MDS(X, cosine)
,