Подробности за "дополнением" применительно к моделированию темы

У меня есть вопрос о функции "дополнения" из учебника Силге и Робинсона "Текстовое копирование с помощью R: аккуратный подход". Запустив LDA на корпусе, я применяю "аугмент", чтобы назначать темы каждому слову.

Я получаю результаты, но не уверен, что происходит "под капотом" за "дополнением", то есть как определяется тема для каждого слова с использованием байесовской структуры. Это просто основано на формуле условной вероятности и оценивается после подбора LDA с использованием p(topic|word)=p(word|topic)*p(topic)/p(word)?

Я был бы признателен, если бы кто-то мог предоставить статистические данные о том, как "аугмент" делает это Не могли бы вы также предоставить ссылки на документы, где это задокументировано.

1 ответ

Пакет Tidytext с открытым исходным кодом и на GitHub, так что вы можете копаться в код для augment() для себя. Я бы посоветовал посмотреть на

  • augment() для LDA из темы модельный пакет
  • augment() для структурной тематической модели из пакета stm

Чтобы узнать больше об этих подходах, есть отличная статья / виньетка по структурной модели темы, и мне нравится статья в Википедии для LDA.

Другие вопросы по тегам