Содержание индекса Solr 6 в интервалах

Question

Содержание индекса Solr 6 в интервалах

Я использую Solr 6, и мое требование заключается в том, чтобы найти документы, которые дублированы 5 последовательных слов (разделенных пробелом).

Поэтому, чтобы достичь этого, я планирую индексировать содержимое в инверсии 5 слов, например, если мое содержание "Быстрая коричневая лиса перепрыгивает через ленивую собаку", оно должно индексироваться как "Быстрая коричневая лиса прыгает", "Быстрая коричневая". лиса перепрыгивает через "," коричневая лиса перепрыгивает через ".

Чтобы настроить токенизатор, я ссылался на эту вики, но не нашел ни одного предоставленного токенизатора, который мог бы решить эту проблему. Поэтому я ищу способ создать новый класс токенизатора или любой другой способ с помощью предоставленного токенизатора, который мог бы решить мою проблему. Было бы замечательно, если бы кто-то мог помочь мне решить это.

0

solr solr4 solr6

Источник

user7069316 10 июл '17 в 06:41

1 ответ

Другие вопросы по тегам solr solr4 solr6

user101762 10 июл '17 в 08:11 2017-07-10 08:11 · Answer 1 · 2017-07-10 08:11

Вы используете фильтр Shingle именно для этой цели. Это фильтр, а не токенизатор, но он делает то, что вам нужно.

1

Источник

user101762 10 июл '17 в 08:11