Выбрать правильный метод кластеризации для скрытого семантического анализа
Я хочу объединить текстовый документ, чтобы найти документ с той же концепцией. Я сделал семантическое сходство, используя Latent Semantic Analysis (LSA), но я путаю, какой метод кластеризации я должен выбрать для своих целей. Спасибо
1 ответ
Вы можете использовать иерархическую кластеризацию. В R есть пакет под названием RClusterpp, который очень эффективен для иерархической кластеризации больших данных (он выполняет параллельные вычисления). Затем вы можете вырезать дерево дендрограмм для различного количества кластеров в пределах возможного диапазона и проверить профили кластеров, используя кросс-таблицу.