Нет результатов при поиске в индексированном PDF с помощью Solr Cell

Я работал с Solr некоторое время, недавно я попробовал компонент solr-cell, и я индексирую некоторые PDF-файлы, однако у меня точно такая же проблема, представленная в этой теме.

Когда я ищу *:* в консоли администратора, отображаются PDF-файлы. Однако, когда я ищу контент в PDF, я не получаю результатов.

Я уже попробовал команду из ответа, приведенного там, но безуспешно, у меня все еще та же проблема, я пробовал с разными версиями Solr (я использую 3.5 кстати), разными PDF, я изменил поля в схеме.xml, я изменил RequestHandlers в solrconfig.xml, но, похоже, ничего не работает. Любая помощь будет признательна.

1 ответ

Я получил это работает, наконец. Оказывается, это была проблема с входным параметром fmap.content. Я не объявлял это непосредственно в RequestHandler в файле solrconfig.xml, вместо этого я передавал это в команде curl, которую использовал для индексации файла PDF:

curl 'http://localhost:8080/solr/solrcell/update/extract?map.content=text&map.stream_name=id&commit=true' -F "file=@mccm.pdf"

Я знаю, что этот способ тоже должен работать, но, как вы можете видеть, вместо "fmap" была "карта" (я использовал пример книги из предыдущей версии solr).

Я решил оставить входной параметр fmap явно объявленным в файле solrconfig.xml, чтобы избавить меня от любых проблем:

<str name="fmap.content">text</str>


Спасибо за вашу помощь.

Другие вопросы по тегам