Как проиндексировать каждую страницу pdf-документа как отдельный документ Solr

Я пытаюсь получить номера страниц, откуда был найден результат поиска в solr. Я обнаружил, что индексирование каждой страницы как отдельного документа Solr будет работать. Но я не могу найти способ индексировать одну страницу из PDF-файла.

Кто-нибудь нашел способ индексировать одну страницу документа с помощью Solr?

1 ответ

Решение

Вы можете использовать любую библиотеку, например, pdfbox, чтобы извлекать текст с каждой страницы отдельно и отправлять отдельные документы в Solr.

Другие вопросы по тегам