Java-библиотека для обнаружения элементов списка на веб-страницах
Большинство современных веб-страниц содержат списки вещей или фрагменты HTML-шаблонов, которые многократно повторяются.
Например:
- Сообщения о статусе Facebook на домашних страницах.
- Digg / Hacker News
- Домашняя страница Stackru
Есть ли библиотека Java для обнаружения таких списков. Это будет включать в себя некоторое количество сопоставления с образцом и интеллекта. Благодарю.
2 ответа
Возможно, вы захотите изучить термин "скребок" в Google. Точное извлечение данных с веб-страниц в общих чертах называется очисткой, в отличие от захвата всей страницы "сканирования".
Между выражениями XPath и атрибутами "id" HTML-элемента вы сможете найти корень интересующих вас списков, и тогда больше XPath позволит вам перебирать их.
Если у вас еще нет XPath, я рекомендую использовать HtmlUnit. Да, он предназначен для тестирования, но он действительно хорошо работает как "безголовый" браузер и имеет отличную поддержку XPath для обхода DOM страницы.