Какой подходящий анализатор люцена использовать?

У меня проблемы с индексированием имен предметов с помощью цифр и символов. образец моих данных показан ниже:

ANGLE BARS   ORANGE - 4.0MM 2 - 1/2"
B.I SQUARE TUBING     2" X 3"
B.I. PIPE S-40   10MM 3/8"
B.I SQUARE TUBING     1" X 2"
PLYWOOD   MARINE 3/4X4X8
PLYWOOD   STA. CLARA 1/8X4X8
PLYWOOD   STA. CLARA 3/16X4X8

я хочу маркировать свои данные в белых или конечных пробелах, не опуская символы, потому что эти символы очень важны. так что всякий раз, когда я ищу "plywood sta. clara", "bi square 2" X 3"" или "angle orange 2 - 1/2", я получаю результат. Я пытался использовать анализатор пробелов, но символы пропали. Я также попробовал Standardanalyzer, но стоп-слова и символы также пропали. Какой анализатор лучше использовать?

2 ответа

Решение

Вы можете использовать PatternAnalyzer, написав регулярное выражение или создать Custom Analyzer.

Попробуйте использовать org.apache.lucene.analysis.miscellaneous.PatternAnalyzer. Вы можете указать регулярное выражение для определения разделителей токенов.

Другие вопросы по тегам