Выбрать правильный метод кластеризации для скрытого семантического анализа

Question

Выбрать правильный метод кластеризации для скрытого семантического анализа

Я хочу объединить текстовый документ, чтобы найти документ с той же концепцией. Я сделал семантическое сходство, используя Latent Semantic Analysis (LSA), но я путаю, какой метод кластеризации я должен выбрать для своих целей. Спасибо

0

cluster-analysis latent-semantic-indexing latent-semantic-analysis

Источник

user4855915 19 июн '15 в 02:48

1 ответ

Другие вопросы по тегам cluster-analysis latent-semantic-indexing latent-semantic-analysis

user5083901 31 май '16 в 11:42 2016-05-31 11:42 · Answer 1 · 2016-05-31 11:42

Вы можете использовать иерархическую кластеризацию. В R есть пакет под названием RClusterpp, который очень эффективен для иерархической кластеризации больших данных (он выполняет параллельные вычисления). Затем вы можете вырезать дерево дендрограмм для различного количества кластеров в пределах возможного диапазона и проверить профили кластеров, используя кросс-таблицу.