Найти лучшие готовые анализаторы /Tokenizer/TokenFilters для Solr, которые делят входную строку

Question

Я перемещаю какой-то существующий указатель из Lucene в Solr. Мы применяем следующую логику к тексту ввода в Lucene:

в нижнем регистре
replaceDictionaryWords (заменить некоторые конкретные слова другими словами, пример заменить "hertz" на "htz")
извлекать только символы и цифры
обрезать выходную строку
заменить \s+ на \ s
разделить, используя метод java.lang.String # split (in)
для каждого разделенного текста разделите слово результата по следующей схеме: "ABCDEF" => ABC BCD CDE DEF (разделите на 3, 2)

Я не хочу писать токенизатор, который мог бы существовать.

Итак, я посмотрел здесь http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters но пропустил.

solr analyzer

Источник

user171950 14 май '12 в 16:19

2 ответа

Другие вопросы по тегам solr analyzer

user675589 14 май '12 в 19:36 2012-05-14 19:36 · Answer 1 · 2012-05-14 19:36

Но если у вас уже есть анализатор Lucene, вы можете заставить его использовать Solr.

Источник

user675589 14 май '12 в 19:36

user237815 14 май '12 в 16:24 2012-05-14 16:24 · Answer 2 · 2012-05-14 16:24

Попробуйте OpenPipeline. Он предназначен для предварительной обработки документов, поступающих в поисковое программное обеспечение.

Источник

user237815 14 май '12 в 16:24