Нормализованные темы документа вероятности text2vec R

Я пытаюсь выяснить вероятности документа темы после запуска модели lda с помощью пакета text2vec в R.

Следующие команды генерируют модель:

lda_model <-  LDA$new(n_topics = n_topics, doc_topic_prior = 0.1, topic_word_prior = 0.01)
doc_topic_distr <- lda_model$fit_transform(x = quantdfm, n_iter = 2000, convergence_tol = 0.00001, n_check_convergence = 10, progressbar = FALSE)

quantdfm - это пакет dtm, использующий пакет quanteda, который я включаю в метод $fit_transform.

Я заметил, что doc_topic_distr содержит вероятности документа темы (даже без запроса нормализации). Это правильно? Потому что в предыдущем посте: Как получить таблицу вероятностей темы из LDA text2vec, Дмитрий Селиванов попросил вывести такие вероятности, используя:

doc_topic_prob = normalize(doc_topic_distr, norm = "l1")

тогда как когда я использую ту же команду, что и выше, doc_topic_distr и doc_topic_prob имеют одинаковые значения (я думал, что первая содержит целые числа, а не дроби в последней).

Пожалуйста, предложите, если это ожидаемое поведение кода, или я что-то здесь упустил.

Благодарю.

1 ответ

Согласно актуальной документации LDA fit_transform возвращает тему вероятности.

Другие вопросы по тегам