Heritrix: как исключить из зеркалирования все, кроме pdf?

Я нашел эту тему Как исключить все, кроме text/html из сканирования heritrix?

Я изменил боб на это

 <property name="shouldProcessRule">
  <bean class="org.archive.modules.deciderules.ContentTypeMatchesRegexDecideRule">
    <property name="decision" value="ACCEPT" />
    <property name="regex" value="^application/pdf.*"/>
  </bean>
</property>

</bean>

Но Heritrix по-прежнему сохраняет каждый файл в зеркальном каталоге.

1 ответ

Я полагаю, что вы упускаете правило отклонения выше своего правила принятия У меня есть следующее, что работает:

<property name="shouldProcessRule">
  <bean class="org.archive.modules.deciderules.DecideRuleSequence">
    <property name="rules">
      <list>
        <bean class="org.archive.modules.deciderules.RejectDecideRule">
        </bean>
        <bean class="org.archive.modules.deciderules.ContentTypeMatchesRegexDecideRule">
          <property name="decision" value="ACCEPT" />
          <property name="regex" value="^application/pdf.*"/>
        </bean>
      </list>
    </property>
  </bean>
</property>

Это отклоняет все, а затем принимает все перечисленные в следующих правилах.

Другие вопросы по тегам