Отрицательное бревно в Генсим ldamodel

Question

Отрицательное бревно в Генсим ldamodel

Я использую ldamodel от gensim в python для создания тематических моделей для моего корпуса. Чтобы оценить мою модель и настроить гиперпараметры, я планирую использовать log_perplexity в качестве метрики оценки.

Однако вычисление log_perplexity (с использованием предопределенной функции LdaModel.log_perplexity) в обучающем (а также в тестовом) корпусе возвращает отрицательное значение (~ -6). Я немного сбит с толку, если отрицательные значения для логарифмической логики имеют смысл, и если они есть, как решить, какое значение логарифмической логики лучше? Должен ли я попытаться свести к минимуму степень сложности журнала?

Ниже приведены параметры, которые я использую во время тренировки -

num_topics = 50
alpha = 0.02
eta = 0.02
iterations = 100
passes = 10

Другие дополнительные параметры по умолчанию

Обучающие детали корпуса -

Number of documents ~ 30,000
Vocabulary size (after removing stop words, verbs, adjectives, etc.) ~ 35000
Median document size (after removing stop words, etc.) ~ 50

Версия библиотеки Gensim Python - 3.4.0

Спасибо!

0

nlp gensim lda topic-modeling perplexity

Источник

user5702581 20 авг '18 в 21:49

0 ответов

Другие вопросы по тегам nlp gensim lda topic-modeling perplexity