Кастомный токенизатор для apache lucene 4

Question

Кастомный токенизатор для apache lucene 4

У меня есть токенизированный текст (разделенные предложения и разделенные слова). И собираюсь создать индекс Apache Lucene, основанный на этой структуре. Какой самый простой способ расширить или заменить стандартный токенизатор для использования пользовательских токенов. Я смотрел на StandardTokenizerImpl, но кажется очень сложным. Может быть есть другие способы?

1

java apache lucene tokenize

Источник

user1678487 25 сен '12 в 20:30

1 ответ

Другие вопросы по тегам java apache lucene tokenize

user675589 27 сен '12 в 10:19 2012-09-27 10:19 · Answer 1 · 2012-09-27 10:19

StandardTokenizerImpl является сложным, потому что он был сгенерирован из грамматики JFlex.

Если вы хотите реализовать свой собственный токенизатор, все, что вам нужно сделать, это расширить класс Tokenizer.

Например, WhitespaceTokenizer - это простой токенизатор, который разделяет токены в пробелах.