Apache Nutch: управление DOM перед анализом
Я хочу удалить определенные элементы из ответа на странице, прежде чем он будет передан до конца. В частности, я хочу пометить части моих страниц, т.е.
<div class="noindex">I shall not be indexed</div>
И хочу удалить их до синтаксического разбора, чтобы потом "я не буду индексирован" не присутствовало в NutchDocument. Я планирую окружить мою навигацию, заголовок, содержимое нижнего колонтитула этим, потому что сейчас они присутствуют в каждом документе в индексе.
Спасибо пол
1 ответ
У вас есть альтернатива для этого:
Вы можете написать плагин для NUTCH для этого. В этом блоге есть отличный пример создания плагина на языке нутч: http://sujitpal.blogspot.com/2009/07/nutch-custom-plugin-to-parse-and-add.html
Использование экстрактора контента: здесь http://tomazkovacic.com/blog/122/evaluating-text-extraction-algorithms/ есть некоторые алгоритмы. Возможно, лучший способ сделать это также в плагине Nutch.