R тема моделей LDA
Я использую LDA на небольшом корпусе из 2 документов (предложений) для тестирования. Следующий код возвращает распределения по теме и по теме документа, которые вообще не подходят для входных документов. Запуск точно такой же возвращает в Python разумные результаты. Кто знает, что здесь не так?
library(topicmodels)
library(tm)
d1 <- "bank bank bank"
d2 <- "stock stock stock"
corpus <- Corpus(VectorSource(c(d1,d2)))
##fit lda to data
dtm <- DocumentTermMatrix(corpus)
ldafit <- LDA(dtm, k=2, method="Gibbs")
##get posteriors
topicTerm <- t(posterior(ldafit)$terms)
docTopic <- posterior(ldafit)$topics
topicTerm
docTopic
> topicTerm
1 2
bank 0.3114525 0.6885475
stock 0.6885475 0.3114525
> docTopic
1 2
1 0.4963245 0.5036755
2 0.5036755 0.4963245
Результаты от Python следующие:
>>> docTopic
array([[ 0.87100799, 0.12899201],
[ 0.12916713, 0.87083287]])
>>> fit.print_topic(1)
u'0.821*"bank" + 0.179*"stock"'
>>> fit.print_topic(0)
u'0.824*"stock" + 0.176*"bank"'
2 ответа
Автор тематической модели пакета R, Беттина Грюн, указала, что это связано с выбором гиперпараметра "альфа".
LDA в R выбирает alpha = 50/k= 25
пока LDA в генсим Python выбирает alpha = 1/k = 0.5
, Меньшее альфа-значение благоприятствует разреженным решениям распределения тем по документам, то есть документы содержат смесь всего нескольких тем. Следовательно, уменьшение альфа в LDA в R дает очень разумные результаты:
ldafit <- LDA(dtm, k=2, method="Gibbs", control=list(alpha=0.5))
posterior(ldafit)$topics
# 1 2
# 1 0.125 0.875
# 2 0.875 0.125
posterior(ldafit)$terms
# bank stock
# 1 0.03125 0.96875
# 2 0.96875 0.03125
Попытайтесь представить недоумение по итерациям и убедитесь, что они сходятся. Первоначальный статус также имеет значение. (Размер документа и размер образца кажутся маленькими.)