Хранение значений TF-IDF в инвертированном индексе

Question

Хранение значений TF-IDF в инвертированном индексе

Я создаю поисковую систему для поиска по списку примерно из 20 тысяч английских фраз, каждая из которых состоит из нескольких слов.

Я изучил способы создания поисковой системы, и в настоящее время я использую TfidfVectorizer из sklearn и Cosine Similarity для вычисления рейтинговых оценок.

Насколько я понимаю, у вас есть этапы поиска и ранжирования, однако я не понимаю, как вы могли бы использовать структуру данных, такую как инвертированный индекс, для ускорения поиска перед использованием TfidfVectorizer? Похоже, что TfidfVectorizer создает матрицу документа-термина, которая отличается от индекса. Не могли бы вы просто сохранить значения TF и IDF в инвертированном индексе и использовать косинусное сходство во время выполнения? В идеале мне нужно автозаполнение фраз, поэтому мне также нужно хранить граничные нграммы, а логическая модель здесь бесполезна.

1

search-engine cosine-similarity tfidfvectorizer inverted-index vector-space

Источник

user5104295 05 авг '20 в 12:51

0 ответов

Другие вопросы по тегам search-engine cosine-similarity tfidfvectorizer inverted-index vector-space