Lucene 4 - Как отказаться от числовых терминов в индексе?
Я использую Apache Tika для анализа XML-документа перед индексацией с помощью Apache Lucene.
Это часть Тики:
BodyContentHandler handler = new BodyContentHandler(10*1024*1024);
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(f);
ParseContext pcontext = new ParseContext();
//Xml parser
XMLParser xmlparser = new XMLParser();
xmlparser.parse(inputstream, handler, metadata, pcontext);
return handler.toString();// return simple text
Я использую StandardAnalyzer со списком стоп-слов для токенизации моего документа:
analyzer = new StandardAnalyzer(StandardAnalyzer.STOP_WORDS_SET); // using stop words
Могу ли я отказаться от числовых терминов, потому что мне это не нужно?
Спасибо за вашу помощь.