Описание тега inverted-index

Inverted index is an index data structure storing a mapping from content, such as words or numbers, to its locations in a database file, or in a document or a set of documents. The purpose of an inverted index is to allow fast full text searches, at a cost of increased processing when a document is added to the database.
2 ответа

Где взять веб-график с соответствующим набором данных веб-страниц

Я пытаюсь реализовать PageRank алгоритм на множестве веб-страниц, для этого мне нужен образец dataset веб-страниц и соответствующего им веб-графика, этот веб-график представляет ссылки между страницами, содержащимися в наборе данных. Мне нужен веб-г…
2 ответа

Система перевернутого индекса с использованием Python

Я работаю над созданием инвертированного индекса с использованием Python. У меня есть некоторые сомнения относительно производительности, которую он может предоставить мне. Будет ли Python индексировать почти так же быстро, как Java или C? Кроме тог…
1 ответ

Ключи Cassandra и ключи кластера для хранения инвертированного индекса

Мне нужно использовать Кассандру для хранения инвертированного индекса, в котором слова и их частоты в статьях хранятся следующим образом: word, article_title, frequency Количество уникальных слов составляет около 40M, а количество узлов Cassandra =…
08 мар '17 в 20:45
4 ответа

Как оптимизировать "текстовый поиск" для инвертированного индекса и реляционной базы данных?

Обновление 2015-10-15 Еще в 2012 году я создавал персональное онлайн-приложение и на самом деле хотел заново изобрести колесо, потому что по натуре мне любопытно, для целей обучения и для улучшения моих алгоритмов и архитектурных навыков. Я мог бы …
2 ответа

Инвертированный индекс в поисковой системе

Я пытаюсь написать код, чтобы сделать небольшое приложение для поиска текста из файлов. Файлы должны быть просканированы, и мне нужно поставить инвертированный индекс для ускорения поиска. Моя проблема в том, что у меня вроде есть идеи о том, каким …
28 дек '09 в 20:50
3 ответа

Распечатать люцен в перевернутом индексном формате

Насколько я понимаю, Lucene использует инвертированные индексы. Есть ли способ извлечь / напечатать индекс люцена (люцен 6) в инвертированном формате индекса: term1 <doc1, doc100, ..., doc555> term1 <doc1, ..., doc100, ..., do89> term1 &…
21 май '17 в 08:50
1 ответ

MongoEngine поисковый индекс

Я пытаюсь реализовать механизм поиска с обратным индексом с MongoDb (MongoEngine), где терминам в сообщениях присваиваются веса, а затем они используются в качестве встроенных документов, например: class Term(db.EmbeddedDocument): t = db.StringField…
17 ноя '13 в 03:00
2 ответа

Алгоритм поиска по инвертированному индексу

Представьте, что в Google ищут 10 миллиардов слов. В соответствии с каждым словом у вас есть отсортированный список всех идентификаторов документов. Список выглядит так: [Word 1]->[doc_i1,doc_j1,.....] [Word 2]->[doc_i2,doc_j2,.....] ... ... .…
2 ответа

Союз перевернутых списков

Дайте k отсортированных инвертированных списков, я хочу эффективный алгоритм, чтобы получить объединение этих k списков? Каждый инвертированный список является массивом только для чтения в памяти, каждый список содержит целое число в отсортированном…
1 ответ

Список объектов внутри проблемы HashMap

Я создаю инвертированный индексный файл для своей поисковой системы. Однако я написал класс, когда я пытаюсь его протестировать, программа застревает в этой части: for (final HashObject value: list) { if(url.equals(value.getUrl())) value.setFrequenc…
1 ответ

Что не так с этим кодом C#

Я пытаюсь создать инвертированный индекс, но он не работает. мои коды не содержат ошибок, но не работают. что с этим не так? Я получаю это исключение каждый раз: KeyNotFoundException was unhandled : the given Key was not present in the dictionary us…
06 май '13 в 16:40
2 ответа

Помощь в построении перевернутого индекса

Это часть процесса поиска информации, который я делаю для школы. План состоит в том, чтобы создать хэш-карту слов, используя первые две буквы слова в качестве ключа и любые слова с двумя буквами, сохраненные в виде строкового значения. Так, hashmap …
2 ответа

Изменение структуры индексации (проводок) Lucene

Я занимаюсь исследованиями новых способов индексирования документов. В частности, я хотел бы изменить существующие структуры индекса, чтобы экспериментировать с методами индексации. Например, если Lucene имеет инвертированный индекс, который сохраня…
1 ответ

Как создать инвертированный индекс, когда я уже токенизировал свой файл?

Я пытаюсь создать инвертированный индекс. Я читаю строки текстового файла, текстовый файл имеет в первой позиции каждой строки идентификатор документа docId и остальная часть строки имеет ключевые слова об этом документе. Для того, чтобы создать инв…
11 фев '15 в 13:33
1 ответ

Хранение инвертированного индекса в MySQL

Я работаю над созданием очень больших перевернутых индексов. Какой метод вы бы предложили? Первый termId - > docId a doc2[locations],doc5[locations],doc12[locations] b doc5[locations],doc7[locations],doc4[locations] второй termId - > docId a d…
2 ответа

Apache Lucene инвертированный индекс

Индекс Lucene использует tf-idf в качестве весов? Можно ли определить собственную статистику и веса для каждого документа и "вставить" их в Lucene?
10 июл '13 в 05:17
2 ответа

Что такое DocValues ​​в Solr.

Я новичок в Solr. Я читал, что Solr использует инвертированный индекс, который эффективен для быстрых результатов поиска. Но если запрос включает в себя сортировку, огранку, люди рекомендуют использовать значения документов. Поэтому мой вопрос заклю…
14 дек '18 в 13:52
1 ответ

Целесообразно ли объединять токены при индексации поисковой системы?

Я работаю над поисковой системой, использующей AWS CloudSearch (хотя я думаю, что мой вопрос актуален для поисковых систем в целом). Допустим, у меня есть индексируемый документ, который имеет текстовое поле с именем Name со значением Somecompany, В…
1 ответ

Поиск в Google с помощью пользовательского поиска

Меня просят написать перевернутый индекс, поэтому я хотел бы начать с написания Java-программы, в которой Google ищет слово и помещает результаты в массив. Вот мой код: String search = "Dan"; String google = "http://www.google.com/cse/publicurl?cx=0…
3 ответа

Поиск нормального запроса в инвертированном индексе

У меня есть полный инвертированный индекс в виде вложенного словаря Python. Его структура: {word: {doc_name: [location_list]}} Например, пусть словарь будет называться index, тогда для слова " spam " запись будет выглядеть так: {spam: {doc1.txt: [10…