Другой подход к сходству документов (LDA, LSA, косинус)
У меня есть набор коротких документов (1 или 2 абзаца каждый). Я использовал три разных подхода к сходству документов: - простое косинусное сходство на матрице tfidf - применил LDA ко всему корпусу и затем использовал модель LDA для создания вектора для каждого документа, затем я применил косинусное сходство. - применяя LSA ко всему корпусу, а затем используя модель LSA для создания вектора для каждого документа, я применил косинусное сходство.
Основываясь на экспериментах, я получаю лучший результат по простому косинусному аналогу на матрице tfidf без каких-либо LDA или LSA. Исходя из того, что я прочитал, LDA или LSA должны улучшить результат, но в моем случае это не так! Есть ли идея, почему LDA или LSA имеют худшие результаты? и LDA, и LSA при обучении более 1000 раундов обнаруживают сходство между некоторыми документами с вероятностью выше 90%, которые абсолютно не связаны!
Есть ли основания для этого?
Спасибо
1 ответ
Я использовал реализацию LDA4j и получил лучшие результаты, чем TFIDF, и аналогично для LSI я использовал реализацию семантического вектора. Если у вас есть собственная реализация, поделитесь эскизом модели. Еще одна вещь, вам нужно нормализовать корпус для лучшего результата.