Содержание индекса Solr 6 в интервалах
Я использую Solr 6, и мое требование заключается в том, чтобы найти документы, которые дублированы 5 последовательных слов (разделенных пробелом).
Поэтому, чтобы достичь этого, я планирую индексировать содержимое в инверсии 5 слов, например, если мое содержание "Быстрая коричневая лиса перепрыгивает через ленивую собаку", оно должно индексироваться как "Быстрая коричневая лиса прыгает", "Быстрая коричневая". лиса перепрыгивает через "," коричневая лиса перепрыгивает через ".
Чтобы настроить токенизатор, я ссылался на эту вики, но не нашел ни одного предоставленного токенизатора, который мог бы решить эту проблему. Поэтому я ищу способ создать новый класс токенизатора или любой другой способ с помощью предоставленного токенизатора, который мог бы решить мою проблему. Было бы замечательно, если бы кто-то мог помочь мне решить это.
1 ответ
Вы используете фильтр Shingle именно для этой цели. Это фильтр, а не токенизатор, но он делает то, что вам нужно.