Отрицательное бревно в Генсим ldamodel
Я использую ldamodel от gensim в python для создания тематических моделей для моего корпуса. Чтобы оценить мою модель и настроить гиперпараметры, я планирую использовать log_perplexity в качестве метрики оценки.
Однако вычисление log_perplexity (с использованием предопределенной функции LdaModel.log_perplexity) в обучающем (а также в тестовом) корпусе возвращает отрицательное значение (~ -6). Я немного сбит с толку, если отрицательные значения для логарифмической логики имеют смысл, и если они есть, как решить, какое значение логарифмической логики лучше? Должен ли я попытаться свести к минимуму степень сложности журнала?
Ниже приведены параметры, которые я использую во время тренировки -
num_topics = 50
alpha = 0.02
eta = 0.02
iterations = 100
passes = 10
Другие дополнительные параметры по умолчанию
Обучающие детали корпуса -
Number of documents ~ 30,000
Vocabulary size (after removing stop words, verbs, adjectives, etc.) ~ 35000
Median document size (after removing stop words, etc.) ~ 50
Версия библиотеки Gensim Python - 3.4.0
Спасибо!