Solr 8.6.3 не может проиндексировать файл HTML
solr/
├── bin/
├── CHANGES.TXT
├── contrib/
├── dist/
├── docs/
├── example/
├── licenses
............
├── server/
└── tempfolder/
└── index.html
У меня следующая структура папок, и моя версия solr-8.6.3. Когда я ввожу команду:
bin/post -c solrhelp -filetypes html tempfolder/
Я получаю следующую ошибку:
Solr вернул ошибку #404 (не найдено) для url: http://localhost:8983/solr/solrhelp/update/extract? Resource.name=/home/user/solr-8.6.3/example/my-examples/index.html и literal.id=/home/user/solr-8.6.3/example/my-examples/index.html.
Но в solr-8.3.1 эта команда работает нормально. Поддерживает ли solr-8.6.3 индексацию файлов HTML? Если да, то как это сделать?
1 ответ
Вы должны включить ExtractingRequestHandler и настроить его для
/extract
быть доступным. Вероятно, это уже было сделано в вашей старой установке.
Если вы не работаете с примером конфигурации, jar-файлы, необходимые для использования Solr Cell, не будут загружаться автоматически. Вам нужно будет настроить свой solrconfig.xml, чтобы найти ExtractingRequestHandler и его зависимости:
<lib dir="${solr.install.dir:../../..}/contrib/extraction/lib" regex=".*\.jar" /> <lib dir="${solr.install.dir:../../..}/dist/" regex="solr-cell-\d.*\.jar" />
Затем вы можете настроить ExtractingRequestHandler в solrconfig.xml. Ниже приведена конфигурация по умолчанию, найденная в наборе конфигурации Solr _default, которую вы можете изменить при необходимости:
<requestHandler name="/update/extract" startup="lazy" class="solr.extraction.ExtractingRequestHandler" > <lst name="defaults"> <str name="lowernames">true</str> <str name="fmap.content">_text_</str> </lst> </requestHandler>