Отображение метаданных Tika Solr игнорирует заголовок документа

У меня есть следующий файл конфигурации для Solr:

  <requestHandler name="/update/extract" 
                  startup="lazy"
                  class="solr.extraction.ExtractingRequestHandler" >
    <lst name="defaults">
      <!-- All the main content goes into "text"... if you need to return
           the extracted text or do highlighting, use a stored field. -->
      <str name="lowernames">true</str>
      <str name="fmap.content">content</str>
      <str name="fmap.application_name">type</str>
      <str name="fmap.content_type">mime</str>
      <str name="fmap.stream_size">size</str>
      <str name="uprefix">ignored_</str>
      <str name="captureAttr">false</str>
    </lst>
  </requestHandler>

и это моя схема:

   <field name="id" type="string" indexed="true" stored="true" required="true" /> 
   <field name="access_type" type="string" indexed="true" stored="false"/>
   <field name="access_restriction" type="string" indexed="true" stored="false" multiValued="true"/>
   <field name="title" type="string" indexed="true" stored="true" multiValued="true" />
   <field name="tags" type="string" indexed="true" stored="true" multiValued="true"/>
   <field name="content" type="text_en_splitting" indexed="true" stored="true"/>
   <field name="created" type="date" indexed="true" stored="true"/>
   <field name="createdby" type="string" indexed="true" stored="true"/>
   <field name="modified" type="date" indexed="true" stored="true"/>
   <field name="modifiedby" type="string" indexed="true" stored="true"/>
   <field name="source" type="string" indexed="true" stored="true" />
   <field name="version" type="string" indexed="true" stored="true" />
   <field name="resourcelink" type="string" indexed="true" stored="true" />
   <field name="downloadlink" type="string" indexed="true" stored="true" />

   <field name="type" type="string" indexed="true" stored="true" />
   <field name="mime" type="string" indexed="true" stored="true" />
   <field name="size" type="string" indexed="true" stored="true" />

Я хочу установить title себя. Но Тика продолжает устанавливать свои собственные title (вот почему я поставил multiValued="true" временно), что я нахожу странным, потому что я должен вручную сопоставить такие вещи, как stream_size а также content_type,

Какое решение возможно для этой проблемы?

Я бы хотел, чтобы Тика отменила title Я назначаю, как это:

У меня есть 3 документа, для одного из которых Тика не извлекает titleв этом случае у меня есть свой собственный заголовок literal.titleкогда Тика добывает titleЯ хочу, чтобы он переопределил тот, который я прошел в literal.title, Это возможно?

2 ответа

Решение

Я работал над той же проблемой некоторое время назад, но я также ударил стену:(Я позволил Тике взять "заголовок" и использовать literal.other_title_like_field для хранения правильного заголовка. Это не лучшее решение, но сработало для меня.

Для тех, кто все еще борется с этой проблемой, я решил ее, добавив

<str name="fmap.title">ignored_</str>

в моих значениях по умолчанию ExtractingRequestHandler.

Другие вопросы по тегам