Выбрать правильный метод кластеризации для скрытого семантического анализа

Я хочу объединить текстовый документ, чтобы найти документ с той же концепцией. Я сделал семантическое сходство, используя Latent Semantic Analysis (LSA), но я путаю, какой метод кластеризации я должен выбрать для своих целей. Спасибо

1 ответ

Вы можете использовать иерархическую кластеризацию. В R есть пакет под названием RClusterpp, который очень эффективен для иерархической кластеризации больших данных (он выполняет параллельные вычисления). Затем вы можете вырезать дерево дендрограмм для различного количества кластеров в пределах возможного диапазона и проверить профили кластеров, используя кросс-таблицу.

Другие вопросы по тегам