Нормализованные темы документа вероятности text2vec R
Я пытаюсь выяснить вероятности документа темы после запуска модели lda с помощью пакета text2vec в R.
Следующие команды генерируют модель:
lda_model <- LDA$new(n_topics = n_topics, doc_topic_prior = 0.1, topic_word_prior = 0.01)
doc_topic_distr <- lda_model$fit_transform(x = quantdfm, n_iter = 2000, convergence_tol = 0.00001, n_check_convergence = 10, progressbar = FALSE)
quantdfm - это пакет dtm, использующий пакет quanteda, который я включаю в метод $fit_transform.
Я заметил, что doc_topic_distr содержит вероятности документа темы (даже без запроса нормализации). Это правильно? Потому что в предыдущем посте: Как получить таблицу вероятностей темы из LDA text2vec, Дмитрий Селиванов попросил вывести такие вероятности, используя:
doc_topic_prob = normalize(doc_topic_distr, norm = "l1")
тогда как когда я использую ту же команду, что и выше, doc_topic_distr и doc_topic_prob имеют одинаковые значения (я думал, что первая содержит целые числа, а не дроби в последней).
Пожалуйста, предложите, если это ожидаемое поведение кода, или я что-то здесь упустил.
Благодарю.
1 ответ
Согласно актуальной документации LDA fit_transform
возвращает тему вероятности.