Пакет LDA Topic Models
Fellows,
Я новичок в теме моделирования. Я использую пакет моделей тем в R. Вызов функции - LDA(data, k).
Я хочу знать, какие значения альфа и бета используются? Кроме того, какой алгоритм вывода используется для оценки параметров? Вариационный ЭМ или Гиббс?
Спасибо
3 ответа
Использовать?LDA
LDA(x, k, method = "VEM", control = NULL, model = NULL, ...)
Таким образом, вы можете указать метод.
lda <- LDA(x, control = list(alpha = 0.1), k = 2)
Вы также можете указать альфа в опции управления
Я обнаружил, что люди обычно устанавливают альфа = 20/T, где T - количество тем, а бета =0,01.
Для вывода можно использовать как вариационную выборку EM, так и выборку Гиббса.
Распределение тем определяется с помощью Dirichlet, как функция альфа-параметра. Существует несколько Dirichlets - один в документе, другой в документах в корпусе.
В базовом LDA можно установить альфу, которая определяет распределение тем по Дирихле в корпусе. Обычно используются значения альфа: 0,001, 0,01, 0,1, 1 и т. д. (чаще 1/K, как кто-то упоминал).
Если альфа очень мала, вы подразумеваете (устанавливая ранее), что в среднем каждый документ, скорее всего, будет иметь меньше тем (крайние значения - 1 тема или все темы). Если вы установите альфа очень низким, распределения вероятностей (апостериорные) в каждом документе будут очень искажены.
Независимо от того, что вы установили, фиксация одной альфы подразумевает, что средний размер каждой темы (среднее значение апостериорной вероятности) будет одинаковым для усредненных документов.
INSTEAD оценка альфа на основе данных.
Прочтите "Переосмысление априоров LDA" и подумайте об использовании GENSIM в python.