Apache Nutch: управление DOM перед анализом

Я хочу удалить определенные элементы из ответа на странице, прежде чем он будет передан до конца. В частности, я хочу пометить части моих страниц, т.е.

 <div class="noindex">I shall not be indexed</div>

И хочу удалить их до синтаксического разбора, чтобы потом "я не буду индексирован" не присутствовало в NutchDocument. Я планирую окружить мою навигацию, заголовок, содержимое нижнего колонтитула этим, потому что сейчас они присутствуют в каждом документе в индексе.

Спасибо пол

1 ответ

Решение

У вас есть альтернатива для этого:

Другие вопросы по тегам