Что такое DocValues в Solr.

Question

Что такое DocValues в Solr.

Я новичок в Solr. Я читал, что Solr использует инвертированный индекс, который эффективен для быстрых результатов поиска. Но если запрос включает в себя сортировку, огранку, люди рекомендуют использовать значения документов. Поэтому мой вопрос заключается в том, что такое docvalues и почему мы должны использовать в вышеуказанных случаях, а также, как инвертирование индекса неэффективно в вышеуказанных случаях. Пожалуйста, дайте подробное объяснение с примером, если это возможно.

1

sorting solr inverted-index

Источник

user5103870 14 дек '18 в 13:52

2 ответа

Другие вопросы по тегам sorting solr inverted-index

user2529954 16 дек '18 в 15:45 2018-12-16 15:45 · Answer 1 · 2018-12-16 15:45

Чтобы завершить ответ Гектора, я бы сказал, что инвертированный индекс эффективен для сопоставления документов по основному поисковому запросу.

Теперь, когда дело доходит до фильтрации / сортировки / выполнения огранки, Solr воздействует на набор результатов, он уже имеет дело со списком совпадающих документов, и любой подзапрос будет пересекаться или объединяться с основным набором результатов.

На этом этапе мы можем логически подумать о ситуации с документами к чему-либо: например, если бы вы сортировали произвольный список docID по fieldX, вы бы фактически переупорядочили значения fieldX и получили соответствующие отсортированные docID.

Таким образом, если fieldCache построен с включенным docValues для соответствующих полей, готовность к использованию сопоставления документа со значением значительно улучшит использование fieldCache.

Мы также можем (возможно, несколько неточно) ссылаться на теплый кеш против холодного кеша.

user446681 14 дек '18 в 21:17 2018-12-14 21:17 · Answer 2 · 2018-12-14 21:17

Короткий ответ: DocValues - это оптимизация, которая помогает использовать память и производительность для некоторых других функций Solr, которые люди связывают с поиском.

Из руководства Solr:

DocValues - это способ внутренней записи значений полей, который более эффективен для некоторых целей, таких как сортировка и фасетирование, чем традиционное индексирование.
Почему DocValues?
Стандартный способ, которым Solr создает индекс, - это инвертированный индекс. Этот стиль создает список терминов, найденных во всех документах в индексе, и рядом с каждым термином находится список документов, в которых появляется термин (а также сколько раз термин появляется в этом документе). Это делает поиск очень быстрым - поскольку пользователи выполняют поиск по терминам, наличие готового списка значений терминов в документе ускоряет процесс запроса.
Для других функций, которые мы теперь обычно связываем с поиском, таких как сортировка, огранка и выделение, этот подход не очень эффективен. Механизм фасетирования, например, должен искать каждый термин, который появляется в каждом документе, который будет составлять набор результатов, и извлекать идентификаторы документа для построения списка фасетов. В Solr это сохраняется в памяти и может загружаться медленно (в зависимости от количества документов, условий и т. Д.).
В Lucene 4.0 был представлен новый подход. Поля DocValue теперь являются полями, ориентированными на столбцы, с отображением документа на значение, созданным во время индекса. Этот подход обещает облегчить некоторые требования к памяти для fieldCache и значительно ускорить поиск для огранки, сортировки и группировки.

Что такое DocValues ​​в Solr.

2 ответа

Что такое DocValues в Solr.