Какой подходящий анализатор люцена использовать?
У меня проблемы с индексированием имен предметов с помощью цифр и символов. образец моих данных показан ниже:
ANGLE BARS ORANGE - 4.0MM 2 - 1/2"
B.I SQUARE TUBING 2" X 3"
B.I. PIPE S-40 10MM 3/8"
B.I SQUARE TUBING 1" X 2"
PLYWOOD MARINE 3/4X4X8
PLYWOOD STA. CLARA 1/8X4X8
PLYWOOD STA. CLARA 3/16X4X8
я хочу маркировать свои данные в белых или конечных пробелах, не опуская символы, потому что эти символы очень важны. так что всякий раз, когда я ищу "plywood sta. clara", "bi square 2" X 3"" или "angle orange 2 - 1/2", я получаю результат. Я пытался использовать анализатор пробелов, но символы пропали. Я также попробовал Standardanalyzer, но стоп-слова и символы также пропали. Какой анализатор лучше использовать?
2 ответа
Вы можете использовать PatternAnalyzer, написав регулярное выражение или создать Custom Analyzer.
Попробуйте использовать org.apache.lucene.analysis.miscellaneous.PatternAnalyzer. Вы можете указать регулярное выражение для определения разделителей токенов.