Скрытая семантическая индексация с помощью gensim

Чтобы использовать метод скрытой семантической индексации от gensim, я хочу начать с небольшого "классического" примера, такого как:

import logging, gensim, bz2
id2word = gensim.corpora.Dictionary.load_from_text('wiki_en_wordids.txt')
mm = gensim.corpora.MmCorpus('wiki_en_tfidf.mm')
lsi = gensim.models.lsimodel.LsiModel(corpus=mm, id2word=id2word, num_topics=400)
etc..

Мой вопрос: как получить итератор корпуса 'wiki_en_tfidf.mm'? Должен ли я скачать его откуда-то? Я искал в интернете, но ничего не нашел. Помогите, пожалуйста?

1 ответ

Первая страница результатов поиска содержит ссылку на:

https://radimrehurek.com/gensim/wiki.html

который говорит: "Сначала давайте загрузим итератор и словарь, созданные на втором шаге выше".

Шаг 2

  1. Преобразуйте статьи в простой текст (обработайте разметку Wiki) и сохраните результат в виде разреженных векторов TF-IDF. В Python это легко сделать на лету, и нам даже не нужно распаковывать весь архив на диск. В gensim есть скрипт, который делает именно это, запустите:

    $ python -m gensim.scripts.make_wiki

Другие вопросы по тегам