Как сделать кластеризацию текста по косинусному сходству

Question

Как сделать кластеризацию текста по косинусному сходству

Я использую WEKA для выполнения сбора текста. Предположим, у меня есть n документов с текстом, я вычислил TFID как вектор признаков для каждого документа и затем вычислил косинусное сходство между каждым из каждого документа. Теперь мне интересно, как использовать эту матрицу nxn в алгоритме k-среднего. я знаю, что могу применить некоторые измерения размеров, такие как MDS или PCA. Что меня смущает, так это то, что после применения уменьшения размеров, как я буду идентифицировать сам этот документ, например, если у меня будет 3 документа d1,d2 d3, то косинус даст мне расстояния между d11,d12,d13 d21,d22,d23 d31,d32,d33 теперь я не уверен, что будет выводиться после PCA или MDS и как я буду идентифицировать документы после kmean. Пожалуйста, предложите. Я надеюсь, что я четко сформулировал свой вопрос

0

k-means pca cosine-similarity mds

Источник

user2838082 20 июн '16 в 19:30

1 ответ

Другие вопросы по тегам k-means pca cosine-similarity mds

user1060350 21 июн '16 в 18:11 2016-06-21 18:11 · Answer 1 · 2016-06-21 18:11

PCA используется на необработанных данных, а не на расстояниях, т.е. PCA(X),

MDS использует функцию расстояния, т.е. MDS(X, cosine),

Вы, кажется, считаете, что вам нужно бежать PCA(cosine(X))? Это не работает

Ты хочешь бежать MDS(X, cosine),

0

Источник

user1060350 21 июн '16 в 18:11