Тематическое моделирование: LDA и BTM
Кто-нибудь знает здесь о теме моделирования? Мне очень нужна помощь.
1) Что такое тематическое моделирование 2) Что такое скрытое распределение Дирихле и тематическое моделирование Biterm? 3) В чем разница между LDA и BTM? 4) Как они работают?
Я нашел исследования, но я не могу понять некоторые из них, особенно BTM, который очень мало можно найти (даже в YouTube, не могу найти учебник).
Огромное спасибо.
1 ответ
BTM предназначен для кластеризации короткого текста (например, ответы на опрос, данные в твиттере, короткие предложения), LDA для кластеризации длинного текста (например, новостные статьи, целые статьи). BTM кластеризует словосочетания, LDA кластеризует текстовые документы. Если вы в R,
- BTM можно использовать с пакетом R BTM: https://cran.r-project.org/web//packages/BTM/index.html
- LDA может соответствовать моделям пакета R: https://cran.r-project.org/web//packages/topicmodels/index.html
Обе приведенные ссылки содержат ссылки на математику в статьях