Описание тега inverted-index
Inverted index is an index data structure storing a mapping from content, such as words or numbers, to its locations in a database file, or in a document or a set of documents. The purpose of an inverted index is to allow fast full text searches, at a cost of increased processing when a document is added to the database.
2
ответа
Где взять веб-график с соответствующим набором данных веб-страниц
Я пытаюсь реализовать PageRank алгоритм на множестве веб-страниц, для этого мне нужен образец dataset веб-страниц и соответствующего им веб-графика, этот веб-график представляет ссылки между страницами, содержащимися в наборе данных. Мне нужен веб-г…
29 апр '14 в 23:04
2
ответа
Система перевернутого индекса с использованием Python
Я работаю над созданием инвертированного индекса с использованием Python. У меня есть некоторые сомнения относительно производительности, которую он может предоставить мне. Будет ли Python индексировать почти так же быстро, как Java или C? Кроме тог…
26 фев '12 в 11:19
1
ответ
Ключи Cassandra и ключи кластера для хранения инвертированного индекса
Мне нужно использовать Кассандру для хранения инвертированного индекса, в котором слова и их частоты в статьях хранятся следующим образом: word, article_title, frequency Количество уникальных слов составляет около 40M, а количество узлов Cassandra =…
08 мар '17 в 20:45
4
ответа
Как оптимизировать "текстовый поиск" для инвертированного индекса и реляционной базы данных?
Обновление 2015-10-15 Еще в 2012 году я создавал персональное онлайн-приложение и на самом деле хотел заново изобрести колесо, потому что по натуре мне любопытно, для целей обучения и для улучшения моих алгоритмов и архитектурных навыков. Я мог бы …
30 май '12 в 16:07
2
ответа
Инвертированный индекс в поисковой системе
Я пытаюсь написать код, чтобы сделать небольшое приложение для поиска текста из файлов. Файлы должны быть просканированы, и мне нужно поставить инвертированный индекс для ускорения поиска. Моя проблема в том, что у меня вроде есть идеи о том, каким …
28 дек '09 в 20:50
3
ответа
Распечатать люцен в перевернутом индексном формате
Насколько я понимаю, Lucene использует инвертированные индексы. Есть ли способ извлечь / напечатать индекс люцена (люцен 6) в инвертированном формате индекса: term1 <doc1, doc100, ..., doc555> term1 <doc1, ..., doc100, ..., do89> term1 &…
21 май '17 в 08:50
1
ответ
MongoEngine поисковый индекс
Я пытаюсь реализовать механизм поиска с обратным индексом с MongoDb (MongoEngine), где терминам в сообщениях присваиваются веса, а затем они используются в качестве встроенных документов, например: class Term(db.EmbeddedDocument): t = db.StringField…
17 ноя '13 в 03:00
2
ответа
Алгоритм поиска по инвертированному индексу
Представьте, что в Google ищут 10 миллиардов слов. В соответствии с каждым словом у вас есть отсортированный список всех идентификаторов документов. Список выглядит так: [Word 1]->[doc_i1,doc_j1,.....] [Word 2]->[doc_i2,doc_j2,.....] ... ... .…
05 фев '14 в 16:43
2
ответа
Союз перевернутых списков
Дайте k отсортированных инвертированных списков, я хочу эффективный алгоритм, чтобы получить объединение этих k списков? Каждый инвертированный список является массивом только для чтения в памяти, каждый список содержит целое число в отсортированном…
26 фев '12 в 15:08
1
ответ
Список объектов внутри проблемы HashMap
Я создаю инвертированный индексный файл для своей поисковой системы. Однако я написал класс, когда я пытаюсь его протестировать, программа застревает в этой части: for (final HashObject value: list) { if(url.equals(value.getUrl())) value.setFrequenc…
18 апр '14 в 19:55
1
ответ
Что не так с этим кодом C#
Я пытаюсь создать инвертированный индекс, но он не работает. мои коды не содержат ошибок, но не работают. что с этим не так? Я получаю это исключение каждый раз: KeyNotFoundException was unhandled : the given Key was not present in the dictionary us…
06 май '13 в 16:40
2
ответа
Помощь в построении перевернутого индекса
Это часть процесса поиска информации, который я делаю для школы. План состоит в том, чтобы создать хэш-карту слов, используя первые две буквы слова в качестве ключа и любые слова с двумя буквами, сохраненные в виде строкового значения. Так, hashmap …
03 апр '10 в 03:44
2
ответа
Изменение структуры индексации (проводок) Lucene
Я занимаюсь исследованиями новых способов индексирования документов. В частности, я хотел бы изменить существующие структуры индекса, чтобы экспериментировать с методами индексации. Например, если Lucene имеет инвертированный индекс, который сохраня…
08 июн '17 в 20:14
1
ответ
Как создать инвертированный индекс, когда я уже токенизировал свой файл?
Я пытаюсь создать инвертированный индекс. Я читаю строки текстового файла, текстовый файл имеет в первой позиции каждой строки идентификатор документа docId и остальная часть строки имеет ключевые слова об этом документе. Для того, чтобы создать инв…
11 фев '15 в 13:33
1
ответ
Хранение инвертированного индекса в MySQL
Я работаю над созданием очень больших перевернутых индексов. Какой метод вы бы предложили? Первый termId - > docId a doc2[locations],doc5[locations],doc12[locations] b doc5[locations],doc7[locations],doc4[locations] второй termId - > docId a d…
27 окт '12 в 12:26
2
ответа
Apache Lucene инвертированный индекс
Индекс Lucene использует tf-idf в качестве весов? Можно ли определить собственную статистику и веса для каждого документа и "вставить" их в Lucene?
10 июл '13 в 05:17
2
ответа
Что такое DocValues в Solr.
Я новичок в Solr. Я читал, что Solr использует инвертированный индекс, который эффективен для быстрых результатов поиска. Но если запрос включает в себя сортировку, огранку, люди рекомендуют использовать значения документов. Поэтому мой вопрос заклю…
14 дек '18 в 13:52
1
ответ
Целесообразно ли объединять токены при индексации поисковой системы?
Я работаю над поисковой системой, использующей AWS CloudSearch (хотя я думаю, что мой вопрос актуален для поисковых систем в целом). Допустим, у меня есть индексируемый документ, который имеет текстовое поле с именем Name со значением Somecompany, В…
30 июл '15 в 17:53
1
ответ
Поиск в Google с помощью пользовательского поиска
Меня просят написать перевернутый индекс, поэтому я хотел бы начать с написания Java-программы, в которой Google ищет слово и помещает результаты в массив. Вот мой код: String search = "Dan"; String google = "http://www.google.com/cse/publicurl?cx=0…
18 июн '13 в 13:50
3
ответа
Поиск нормального запроса в инвертированном индексе
У меня есть полный инвертированный индекс в виде вложенного словаря Python. Его структура: {word: {doc_name: [location_list]}} Например, пусть словарь будет называться index, тогда для слова " spam " запись будет выглядеть так: {spam: {doc1.txt: [10…
15 окт '10 в 18:11