Отображение метаданных Tika Solr игнорирует заголовок документа
У меня есть следующий файл конфигурации для Solr:
<requestHandler name="/update/extract"
startup="lazy"
class="solr.extraction.ExtractingRequestHandler" >
<lst name="defaults">
<!-- All the main content goes into "text"... if you need to return
the extracted text or do highlighting, use a stored field. -->
<str name="lowernames">true</str>
<str name="fmap.content">content</str>
<str name="fmap.application_name">type</str>
<str name="fmap.content_type">mime</str>
<str name="fmap.stream_size">size</str>
<str name="uprefix">ignored_</str>
<str name="captureAttr">false</str>
</lst>
</requestHandler>
и это моя схема:
<field name="id" type="string" indexed="true" stored="true" required="true" />
<field name="access_type" type="string" indexed="true" stored="false"/>
<field name="access_restriction" type="string" indexed="true" stored="false" multiValued="true"/>
<field name="title" type="string" indexed="true" stored="true" multiValued="true" />
<field name="tags" type="string" indexed="true" stored="true" multiValued="true"/>
<field name="content" type="text_en_splitting" indexed="true" stored="true"/>
<field name="created" type="date" indexed="true" stored="true"/>
<field name="createdby" type="string" indexed="true" stored="true"/>
<field name="modified" type="date" indexed="true" stored="true"/>
<field name="modifiedby" type="string" indexed="true" stored="true"/>
<field name="source" type="string" indexed="true" stored="true" />
<field name="version" type="string" indexed="true" stored="true" />
<field name="resourcelink" type="string" indexed="true" stored="true" />
<field name="downloadlink" type="string" indexed="true" stored="true" />
<field name="type" type="string" indexed="true" stored="true" />
<field name="mime" type="string" indexed="true" stored="true" />
<field name="size" type="string" indexed="true" stored="true" />
Я хочу установить title
себя. Но Тика продолжает устанавливать свои собственные title
(вот почему я поставил multiValued="true"
временно), что я нахожу странным, потому что я должен вручную сопоставить такие вещи, как stream_size
а также content_type
,
Какое решение возможно для этой проблемы?
Я бы хотел, чтобы Тика отменила title
Я назначаю, как это:
У меня есть 3 документа, для одного из которых Тика не извлекает title
в этом случае у меня есть свой собственный заголовок literal.title
когда Тика добывает title
Я хочу, чтобы он переопределил тот, который я прошел в literal.title
, Это возможно?
2 ответа
Я работал над той же проблемой некоторое время назад, но я также ударил стену:(Я позволил Тике взять "заголовок" и использовать literal.other_title_like_field для хранения правильного заголовка. Это не лучшее решение, но сработало для меня.
Для тех, кто все еще борется с этой проблемой, я решил ее, добавив
<str name="fmap.title">ignored_</str>
в моих значениях по умолчанию ExtractingRequestHandler.