Lucene 4 - Как отказаться от числовых терминов в индексе?

Я использую Apache Tika для анализа XML-документа перед индексацией с помощью Apache Lucene.

Это часть Тики:

  BodyContentHandler handler = new BodyContentHandler(10*1024*1024);
  Metadata metadata = new Metadata();
  FileInputStream inputstream = new FileInputStream(f);
  ParseContext pcontext = new ParseContext();

  //Xml parser
  XMLParser xmlparser = new XMLParser(); 
  xmlparser.parse(inputstream, handler, metadata, pcontext);

  return handler.toString();// return simple text

Я использую StandardAnalyzer со списком стоп-слов для токенизации моего документа:

 analyzer = new StandardAnalyzer(StandardAnalyzer.STOP_WORDS_SET);  // using stop words

Могу ли я отказаться от числовых терминов, потому что мне это не нужно?

Спасибо за вашу помощь.

0 ответов

Другие вопросы по тегам