Solr File Indexing содержимое карты по страницам
Я хотел бы проиндексировать файлы в Solr. Я уже сделал "скрипт вывода" с PHP, но мой руководитель проекта дал мне задачу отобразить номер найденного текста.
Итак: - Я ищу слово "Foo". - Solr возвращает результаты, а также выделенный текст. - Теперь я хотел бы знать, на какой странице находится этот выделенный текст, чтобы найти его.
Файлы *.pdf.
Одним из решений, о котором я подумал, было бы импортировать текст PDF-файлов в разные поля? Или, может быть, в этом однозначном поле с именем "содержимое".
Может быть так:
Json:
content:
1: "page one text",
2: "page two text"
и так далее?
Это возможно? Или есть лучший способ узнать эту информацию? Спасибо за вашу помощь!:-)
1 ответ
Вам необходимо создать отдельный документ Solr для каждой страницы каждого файла PDF. Если вы хотите вернуть только один результат на файл, вы можете использовать FieldCollapsing, чтобы сгруппировать все результаты из одного файла PDF.