Как вычислить сходство слов, используя TF-IDF или LSA с gensim?

Question

Как вычислить сходство слов, используя TF-IDF или LSA с gensim?

Я знаю, что word2vec в gensim может вычислить сходство между словами. Но теперь я хочу вычислить сходство слов, используя TF-IDF или LSA с gensim. Как это сделать?

примечание: вычислить сходство документов с помощью LSA с помощью gensim очень просто: http://radimrehurek.com/gensim/wiki.html

3

python nlp gensim tf-idf lsa

Источник

user6059430 14 мар '16 в 06:49

1 ответ

Другие вопросы по тегам python nlp gensim tf-idf lsa

user2037787 14 мар '16 в 07:09 2016-03-14 07:09 · Answer 1 · 2016-03-14 07:09

TF-IDF - это схема взвешивания, поэтому it's not an alternative to LSA.

Представьте вашу проблему как матрицу из "m" терминов в "n" документах. Каждая запись Aij вашей матрицы представляет вес термина "i" в документе "j". Здесь вы используете TF-IDF. Чтобы знать, что положить в каждую ячейку матрицы.

Тогда, если это подходит вашему приложению, вы можете уменьшить размеры матрицы, используя LSA.

Я надеюсь, что это немного проясняет проблему.