SSVD для уменьшения размеров + кластеризация
Я запустил ssvd от mahout, чтобы применить LSA (скрытый семантический анализ). У меня есть текстовые документы, каждый из которых содержит много функций (от 100 до 2000 терминов). Я хотел бы использовать LSA на документах, чтобы получить главные термины или фразы, которые появляются вместе, "понятия". У кого-нибудь есть идея, как я могу это сделать? На самом деле, я применил фильтрацию предварительной обработки (токенизация, удаление стоп-слов, обработка, ....), создал tfidf с помощью mahout, а затем запустил команду ssvd: bin/mahout ssvd -i termVectors/tfidf-vectors/part-r-00000 -no Вывод Папка -c 200 -us true -U false -V false -t 1 -ow -pca true Я использую clusterdump в mahout для анализа результатов, но все термины в результатах начинаются с буквы "a*" и не представляют любая концепция. У кого-нибудь есть опыт в ssvd для уменьшения возможностей перед кластеризацией? или любая идея, как вы используете ssvd, чтобы показать концепции в текстовом корпусе?
Спасибо