Индексируйте PDF-файлы, используя Lucene, NoSuchFieldError
Я пытаюсь проиндексировать PDF-файлы с помощью Apache Lucene 4.4
Я продолжаю получать следующее исключение:
Exception in thread "main" java.lang.NoSuchFieldError: TOKENIZED
at com.snowtide.pdf.lucene.LuceneInterface20.addField(SourceFile:18)
at com.snowtide.pdf.lucene.PDFDocumentFactory.buildPDFDocument(SourceFile:174)
at com.snowtide.pdf.lucene.PDFDocumentFactory.buildPDFDocument(SourceFile:84)
at com.apache.lucene.search.EasyLuceneIntegration.addPDFToIndex(EasyLuceneIntegration.java:134)
at com.apache.lucene.search.EasyLuceneIntegration.main(EasyLuceneIntegration.java:62)
Я использую PDFTextStream и следую их примеру здесь: введите описание ссылки здесь
1 ответ
Решение
Проект, на который вы ссылаетесь, поддерживает только до Lucene 2.2. Я бы порекомендовал заглянуть в tika, чтобы перевести ваши PDF-файлы в приемлемый формат, или вы можете просто использовать pdfbox (который, я считаю, является пакетом, который Tika использует для PDF-файлов).