Как вычислить сходство слов, используя TF-IDF или LSA с gensim?
Я знаю, что word2vec в gensim может вычислить сходство между словами. Но теперь я хочу вычислить сходство слов, используя TF-IDF или LSA с gensim. Как это сделать?
примечание: вычислить сходство документов с помощью LSA с помощью gensim очень просто: http://radimrehurek.com/gensim/wiki.html
1 ответ
TF-IDF - это схема взвешивания, поэтому it's not an alternative to LSA.
Представьте вашу проблему как матрицу из "m" терминов в "n" документах. Каждая запись Aij вашей матрицы представляет вес термина "i" в документе "j". Здесь вы используете TF-IDF. Чтобы знать, что положить в каждую ячейку матрицы.
Тогда, если это подходит вашему приложению, вы можете уменьшить размеры матрицы, используя LSA.
Я надеюсь, что это немного проясняет проблему.