Индексирование документов с помощью websolr
Мы собираемся использовать надстройку Websolr для поиска ресурсов в нашем приложении Rails.
Приложение содержит множество моделей ресурсов. Большинство моделей ресурсов являются автономными, с рядом атрибутов: автор, заголовок, набор тегов и т. Д., Однако к некоторым моделям ресурсов прилагается PDF-файл. Нам нужно проиндексировать содержимое этого PDF-файла, чтобы его можно было искать как часть ресурса.
Как мне подойти к этому?
1 ответ
Решение
Это должно помочь вам начать: https://wiki.apache.org/solr/ExtractingRequestHandler, который интегрирует Tika в Solr.