Java-библиотека для обнаружения элементов списка на веб-страницах

Большинство современных веб-страниц содержат списки вещей или фрагменты HTML-шаблонов, которые многократно повторяются.

Например:

  1. Сообщения о статусе Facebook на домашних страницах.
  2. Digg / Hacker News
  3. Домашняя страница Stackru

Есть ли библиотека Java для обнаружения таких списков. Это будет включать в себя некоторое количество сопоставления с образцом и интеллекта. Благодарю.

2 ответа

Возможно, вы захотите изучить термин "скребок" в Google. Точное извлечение данных с веб-страниц в общих чертах называется очисткой, в отличие от захвата всей страницы "сканирования".

Между выражениями XPath и атрибутами "id" HTML-элемента вы сможете найти корень интересующих вас списков, и тогда больше XPath позволит вам перебирать их.

Если у вас еще нет XPath, я рекомендую использовать HtmlUnit. Да, он предназначен для тестирования, но он действительно хорошо работает как "безголовый" браузер и имеет отличную поддержку XPath для обхода DOM страницы.

Другие вопросы по тегам