Heritrix: как исключить из зеркалирования все, кроме pdf?
Я нашел эту тему Как исключить все, кроме text/html из сканирования heritrix?
Я изменил боб на это
<property name="shouldProcessRule">
<bean class="org.archive.modules.deciderules.ContentTypeMatchesRegexDecideRule">
<property name="decision" value="ACCEPT" />
<property name="regex" value="^application/pdf.*"/>
</bean>
</property>
</bean>
Но Heritrix по-прежнему сохраняет каждый файл в зеркальном каталоге.
1 ответ
Я полагаю, что вы упускаете правило отклонения выше своего правила принятия У меня есть следующее, что работает:
<property name="shouldProcessRule">
<bean class="org.archive.modules.deciderules.DecideRuleSequence">
<property name="rules">
<list>
<bean class="org.archive.modules.deciderules.RejectDecideRule">
</bean>
<bean class="org.archive.modules.deciderules.ContentTypeMatchesRegexDecideRule">
<property name="decision" value="ACCEPT" />
<property name="regex" value="^application/pdf.*"/>
</bean>
</list>
</property>
</bean>
</property>
Это отклоняет все, а затем принимает все перечисленные в следующих правилах.