Получение ExtractingRequestHandler для работы в Solr
Я пытаюсь заставить Solr работать с Tika, чтобы я мог индексировать документы Word и PDF на своем веб-сайте Drupal.
Я посмотрел страницу Wiki и эту страницу, и они указывают на добавление requestHandler в solrconfig.xml.
Я так и сделал, и теперь Солр выдает исключение:
org.apache.solr.common.SolrException: Ошибка загрузки класса 'org.apache.solr.handler.extraction.ExtractingRequestHandler'
Я сделал некоторые поиски и вижу, что у других была эта проблема, но не вижу легкого решения. Я использую Solr 3.4.0 на Windows Server 2003. Любые идеи о том, как решить эту проблему?
Как примечание, у меня есть Drupal, использующий Solr для поиска, и это работает. Но то, что я не могу получить, - это использовать Solr для индексирования документов PDF и Word. Я уверен, что это общая потребность для большинства веб-сайтов, но я потратил на это дни и не могу поверить, что это плохо документировано и это трудно понять.
1 ответ
Если вы запускаете Solr из примера каталога с настройкой Jetty, он должен работать без изменений.
Однако для многоядерной установки вам необходимо скопировать jar-файлы в каталог lib.
Если вы проверяете solrconfig в папках примеров, он включает в себя jar для ячейки solr и библиотеки извлечения.
solrconfig.xml -
Раскомментируйте эту строку, чтобы включить все библиотеки lib -
<lib dir="./lib" />
Скопируйте банки из этих папок в вашу многоядерную папку lib. Эти банки используются для извлечения. (Apache pdfbox, poi, fontbox и т. Д.)
<lib dir="../../dist/" regex="apache-solr-cell-\d.*\.jar" />
<lib dir="../../contrib/extraction/lib" />
Когда вы запустите Solr, вы должны увидеть все загруженные банки. Должен заставить тебя работать.