Кастомный токенизатор для apache lucene 4

У меня есть токенизированный текст (разделенные предложения и разделенные слова). И собираюсь создать индекс Apache Lucene, основанный на этой структуре. Какой самый простой способ расширить или заменить стандартный токенизатор для использования пользовательских токенов. Я смотрел на StandardTokenizerImpl, но кажется очень сложным. Может быть есть другие способы?

1 ответ

StandardTokenizerImpl является сложным, потому что он был сгенерирован из грамматики JFlex.

Если вы хотите реализовать свой собственный токенизатор, все, что вам нужно сделать, это расширить класс Tokenizer.

Например, WhitespaceTokenizer - это простой токенизатор, который разделяет токены в пробелах.

Другие вопросы по тегам