Скрытая семантическая индексация с помощью gensim
Чтобы использовать метод скрытой семантической индексации от gensim, я хочу начать с небольшого "классического" примера, такого как:
import logging, gensim, bz2
id2word = gensim.corpora.Dictionary.load_from_text('wiki_en_wordids.txt')
mm = gensim.corpora.MmCorpus('wiki_en_tfidf.mm')
lsi = gensim.models.lsimodel.LsiModel(corpus=mm, id2word=id2word, num_topics=400)
etc..
Мой вопрос: как получить итератор корпуса 'wiki_en_tfidf.mm'? Должен ли я скачать его откуда-то? Я искал в интернете, но ничего не нашел. Помогите, пожалуйста?
1 ответ
Первая страница результатов поиска содержит ссылку на:
https://radimrehurek.com/gensim/wiki.html
который говорит: "Сначала давайте загрузим итератор и словарь, созданные на втором шаге выше".
Шаг 2
Преобразуйте статьи в простой текст (обработайте разметку Wiki) и сохраните результат в виде разреженных векторов TF-IDF. В Python это легко сделать на лету, и нам даже не нужно распаковывать весь архив на диск. В gensim есть скрипт, который делает именно это, запустите:
$ python -m gensim.scripts.make_wiki