Индексирование документов с помощью websolr

Мы собираемся использовать надстройку Websolr для поиска ресурсов в нашем приложении Rails.

Приложение содержит множество моделей ресурсов. Большинство моделей ресурсов являются автономными, с рядом атрибутов: автор, заголовок, набор тегов и т. Д., Однако к некоторым моделям ресурсов прилагается PDF-файл. Нам нужно проиндексировать содержимое этого PDF-файла, чтобы его можно было искать как часть ресурса.

Как мне подойти к этому?

1 ответ

Решение

Это должно помочь вам начать: https://wiki.apache.org/solr/ExtractingRequestHandler, который интегрирует Tika в Solr.

Другие вопросы по тегам