Индексируйте PDF-файлы, используя Lucene, NoSuchFieldError

Я пытаюсь проиндексировать PDF-файлы с помощью Apache Lucene 4.4

Я продолжаю получать следующее исключение:

Exception in thread "main" java.lang.NoSuchFieldError: TOKENIZED
at com.snowtide.pdf.lucene.LuceneInterface20.addField(SourceFile:18)
at com.snowtide.pdf.lucene.PDFDocumentFactory.buildPDFDocument(SourceFile:174)
at com.snowtide.pdf.lucene.PDFDocumentFactory.buildPDFDocument(SourceFile:84)
at com.apache.lucene.search.EasyLuceneIntegration.addPDFToIndex(EasyLuceneIntegration.java:134)
at com.apache.lucene.search.EasyLuceneIntegration.main(EasyLuceneIntegration.java:62)

Я использую PDFTextStream и следую их примеру здесь: введите описание ссылки здесь

1 ответ

Решение

Проект, на который вы ссылаетесь, поддерживает только до Lucene 2.2. Я бы порекомендовал заглянуть в tika, чтобы перевести ваши PDF-файлы в приемлемый формат, или вы можете просто использовать pdfbox (который, я считаю, является пакетом, который Tika использует для PDF-файлов).

Другие вопросы по тегам