Solr File Indexing содержимое карты по страницам

Question

Solr File Indexing содержимое карты по страницам

Я хотел бы проиндексировать файлы в Solr. Я уже сделал "скрипт вывода" с PHP, но мой руководитель проекта дал мне задачу отобразить номер найденного текста.

Итак: - Я ищу слово "Foo". - Solr возвращает результаты, а также выделенный текст. - Теперь я хотел бы знать, на какой странице находится этот выделенный текст, чтобы найти его.

Файлы *.pdf.

Одним из решений, о котором я подумал, было бы импортировать текст PDF-файлов в разные поля? Или, может быть, в этом однозначном поле с именем "содержимое".

Может быть так:

Json:
    content:
        1: "page one text",
        2: "page two text"

и так далее?

Это возможно? Или есть лучший способ узнать эту информацию? Спасибо за вашу помощь!:-)

0

apache pdf solr multivalue

Источник

user2249692 05 апр '13 в 15:37

1 ответ

Другие вопросы по тегам apache pdf solr multivalue

user575335 06 апр '13 в 07:45 2013-04-06 07:45 · Answer 1 · 2013-04-06 07:45

Вам необходимо создать отдельный документ Solr для каждой страницы каждого файла PDF. Если вы хотите вернуть только один результат на файл, вы можете использовать FieldCollapsing, чтобы сгруппировать все результаты из одного файла PDF.

0

Источник

user575335 06 апр '13 в 07:45