Как проиндексировать каждую страницу pdf-документа как отдельный документ Solr
Я пытаюсь получить номера страниц, откуда был найден результат поиска в solr. Я обнаружил, что индексирование каждой страницы как отдельного документа Solr будет работать. Но я не могу найти способ индексировать одну страницу из PDF-файла.
Кто-нибудь нашел способ индексировать одну страницу документа с помощью Solr?
1 ответ
Решение
Вы можете использовать любую библиотеку, например, pdfbox, чтобы извлекать текст с каждой страницы отдельно и отправлять отдельные документы в Solr.