Найти лучшие готовые анализаторы /Tokenizer/TokenFilters для Solr, которые делят входную строку

Я перемещаю какой-то существующий указатель из Lucene в Solr. Мы применяем следующую логику к тексту ввода в Lucene:

  1. в нижнем регистре
  2. replaceDictionaryWords (заменить некоторые конкретные слова другими словами, пример заменить "hertz" на "htz")
  3. извлекать только символы и цифры
  4. обрезать выходную строку
  5. заменить \s+ на \ s
  6. разделить, используя метод java.lang.String # split (in)
  7. для каждого разделенного текста разделите слово результата по следующей схеме: "ABCDEF" => ABC BCD CDE DEF (разделите на 3, 2)

Я не хочу писать токенизатор, который мог бы существовать.

Итак, я посмотрел здесь http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters но пропустил.

2 ответа

  1. LowerCaseFilter,
  2. SynonymFilter,
  3. StandardTokenizer или PatternTokenizer,
  4. TrimFilter,
  5. PatternReplaceFilter,
  6. WordDelimiterFilter?
  7. NGramTokenFilter (вам может понадобиться написать фабрику для этого).

Но если у вас уже есть анализатор Lucene, вы можете заставить его использовать Solr.

Попробуйте OpenPipeline. Он предназначен для предварительной обработки документов, поступающих в поисковое программное обеспечение.

Другие вопросы по тегам