Подробности за "дополнением" применительно к моделированию темы
У меня есть вопрос о функции "дополнения" из учебника Силге и Робинсона "Текстовое копирование с помощью R: аккуратный подход". Запустив LDA на корпусе, я применяю "аугмент", чтобы назначать темы каждому слову.
Я получаю результаты, но не уверен, что происходит "под капотом" за "дополнением", то есть как определяется тема для каждого слова с использованием байесовской структуры. Это просто основано на формуле условной вероятности и оценивается после подбора LDA с использованием p(topic|word)=p(word|topic)*p(topic)/p(word)?
Я был бы признателен, если бы кто-то мог предоставить статистические данные о том, как "аугмент" делает это Не могли бы вы также предоставить ссылки на документы, где это задокументировано.
1 ответ
Пакет Tidytext с открытым исходным кодом и на GitHub, так что вы можете копаться в код для augment()
для себя. Я бы посоветовал посмотреть на
augment()
для LDA из темы модельный пакетaugment()
для структурной тематической модели из пакета stm
Чтобы узнать больше об этих подходах, есть отличная статья / виньетка по структурной модели темы, и мне нравится статья в Википедии для LDA.