Solr 8.6.3 не может проиндексировать файл HTML

solr/
├── bin/
├── CHANGES.TXT
├── contrib/
├── dist/
├── docs/
├── example/
├── licenses
............
├── server/
└── tempfolder/
    └── index.html

У меня следующая структура папок, и моя версия solr-8.6.3. Когда я ввожу команду:

bin/post -c solrhelp -filetypes html tempfolder/

Я получаю следующую ошибку:

Solr вернул ошибку #404 (не найдено) для url: http://localhost:8983/solr/solrhelp/update/extract? Resource.name=/home/user/solr-8.6.3/example/my-examples/index.html и literal.id=/home/user/solr-8.6.3/example/my-examples/index.html.

Но в solr-8.3.1 эта команда работает нормально. Поддерживает ли solr-8.6.3 индексацию файлов HTML? Если да, то как это сделать?

1 ответ

Решение

Вы должны включить ExtractingRequestHandler и настроить его для /extractбыть доступным. Вероятно, это уже было сделано в вашей старой установке.

Если вы не работаете с примером конфигурации, jar-файлы, необходимые для использования Solr Cell, не будут загружаться автоматически. Вам нужно будет настроить свой solrconfig.xml, чтобы найти ExtractingRequestHandler и его зависимости:

<lib dir="${solr.install.dir:../../..}/contrib/extraction/lib" regex=".*\.jar" />
<lib dir="${solr.install.dir:../../..}/dist/" regex="solr-cell-\d.*\.jar" />

Затем вы можете настроить ExtractingRequestHandler в solrconfig.xml. Ниже приведена конфигурация по умолчанию, найденная в наборе конфигурации Solr _default, которую вы можете изменить при необходимости:

<requestHandler name="/update/extract"
            startup="lazy"
            class="solr.extraction.ExtractingRequestHandler" >
  <lst name="defaults">
    <str name="lowernames">true</str>
    <str name="fmap.content">_text_</str>
  </lst>
</requestHandler>
Другие вопросы по тегам