Java-библиотека для обнаружения элементов списка на веб-страницах

Question

Java-библиотека для обнаружения элементов списка на веб-страницах

Большинство современных веб-страниц содержат списки вещей или фрагменты HTML-шаблонов, которые многократно повторяются.

Например:

Сообщения о статусе Facebook на домашних страницах.
Digg / Hacker News
Домашняя страница Stackru

Есть ли библиотека Java для обнаружения таких списков. Это будет включать в себя некоторое количество сопоставления с образцом и интеллекта. Благодарю.

0

java pattern-matching webpage listitem

Источник

user78351 25 авг '10 в 22:22

2 ответа

Другие вопросы по тегам java pattern-matching webpage listitem

user557117 31 дек '10 в 17:04 2010-12-31 17:04 · Answer 1 · 2010-12-31 17:04

Возможно, вы захотите изучить термин "скребок" в Google. Точное извлечение данных с веб-страниц в общих чертах называется очисткой, в отличие от захвата всей страницы "сканирования".

0

Источник

user557117 31 дек '10 в 17:04

user107444 25 авг '10 в 22:48 2010-08-25 22:48 · Answer 2 · 2010-08-25 22:48

Между выражениями XPath и атрибутами "id" HTML-элемента вы сможете найти корень интересующих вас списков, и тогда больше XPath позволит вам перебирать их.

Если у вас еще нет XPath, я рекомендую использовать HtmlUnit. Да, он предназначен для тестирования, но он действительно хорошо работает как "безголовый" браузер и имеет отличную поддержку XPath для обхода DOM страницы.