Скрытый семантический анализ в поиске тем
Я изучаю скрытый семантический анализ (LSA), и я могу построить матрицу терм-документа и найти ее разложение SVD. Как я могу получить темы из этого разложения?
Например, в Генсиме:
topic #0(332.762): 0.425*"utc" + 0.299*"talk" + 0.293*"page" + 0.226*"article" + 0.224*"delete" + 0.216*"discussion" + 0.205*"deletion" + 0.198*"should" + 0.146*"debate" + 0.132*"be"
topic #1(201.852): 0.282*"link" + 0.209*"he" + 0.145*"com" + 0.139*"his" + -0.137*"page" + -0.118*"delete" + 0.114*"blacklist" + -0.108*"deletion" + -0.105*"discussion" + 0.100*"diff"
topic #2(191.991): -0.565*"link" + -0.241*"com" + -0.238*"blacklist" + -0.202*"diff" + -0.193*"additions" + -0.182*"users" + -0.158*"coibot" + -0.136*"user" + 0.133*"he" + -0.130*"resolves"
1 ответ
Вы можете получить матрицы U, S и V вашей декомпозиции SVD: https://github.com/piskvorky/gensim/wiki/Recipes-&-FAQ
РЕДАКТИРОВАТЬ Ответ на вопрос из комментария:
Печатные темы - это просто векторы из матрицы U (= левые единичные векторы), нормированные на единицу длины.
Возможно, учебник по адресу http://radimrehurek.com/gensim/tut2.html может помочь.
На самом деле печатаются первые N слов, которые вносят наибольший вклад в эту конкретную тему (по умолчанию = печатать первые 10 слов).
Вы можете увидеть точное вычисление этих тем здесь, это довольно просто: https://github.com/piskvorky/gensim/blob/0.8.9/gensim/models/lsimodel.py