Как проиндексировать каждую страницу pdf-документа как отдельный документ Solr

Question

Как проиндексировать каждую страницу pdf-документа как отдельный документ Solr

Я пытаюсь получить номера страниц, откуда был найден результат поиска в solr. Я обнаружил, что индексирование каждой страницы как отдельного документа Solr будет работать. Но я не могу найти способ индексировать одну страницу из PDF-файла.

Кто-нибудь нашел способ индексировать одну страницу документа с помощью Solr?

0

solr solrj

Источник

user1199488 16 авг '12 в 11:58

1 ответ

Решение

Другие вопросы по тегам solr solrj

user101762 16 авг '12 в 12:04 2012-08-16 12:04 · Accepted Answer · 2012-08-16 12:04

Вы можете использовать любую библиотеку, например, pdfbox, чтобы извлекать текст с каждой страницы отдельно и отправлять отдельные документы в Solr.

1

Источник

user101762 16 авг '12 в 12:04