Отрицательные значения: оцените Gensim LDA с согласованностью темы
В настоящее время я пытаюсь оценить мои тематические модели с помощью gensim topiccoherencemodel:
from gensim.models.coherencemodel import CoherenceModel
cm_u_mass = CoherenceModel(model = model1, corpus = corpus1, coherence = 'u_mass')
coherence_u_mass = cm_u_mass.get_coherence()
print('\nCoherence Score: ', coherence_u_mass)
Выход просто отрицательные значения. Это правильно? Кто-нибудь может предоставить формулу или что-то, как работает u_mass?
2 ответа
Бегло посмотрев на оригинальную статью, вы увидите, что когерентность UMass рассчитывается по журналу вероятностей, поэтому она отрицательна.
О формуле, которую вы спросили, ее можно найти как уравнение 4 в той же статье.
Я понимаю, что когда значение UMass-согласованности приближается к 0, согласованность тем становится лучше.
Надеюсь это поможет.
Принятый ответ неверен. Для UMass согласованность обычно начинается с самых высоких значений (т. е. близких к нулю) и начинает уменьшаться по мере увеличения количества тем. Вы можете увидеть эту тенденцию в этой статье . Его общая тенденция противоположна тому, что вы видите для c_v. Короче говоря, вы ищете компромисс между количеством тем и самой отрицательной оценкой UMass.