Используя jpedal для извлечения гиперссылок из html? --Джава

Question

Используя jpedal для извлечения гиперссылок из html? --Джава

JPedal библиотека в Java обычно используется для преобразования PDF в XML или HTML. Однако мне нужно было знать, можем ли мы извлечь данные из документа HTML5 и сохранить их в XML с помощью API библиотеки JPedal? Есть ли другая возможная альтернатива этому?

Кроме того, я пытаюсь разобрать документ HTML5 с помощью Java и сохранить его в формате XML. Есть ли хорошие решения, чтобы найти только определенные теги и сделать из них XML?

Пожалуйста, дайте мне знать. Спасибо.

0

java html parsing dom jpedal

Источник

05 окт '11 в 19:21

1 ответ

Другие вопросы по тегам java html parsing dom jpedal

user42585 05 окт '11 в 20:13 2011-10-05 20:13 · Answer 1 · 2011-10-05 20:13

Существует несколько синтаксических анализаторов Java HTML, но я рекомендую использовать анализатор HTML5 из validator.nu, который можно загрузить здесь: http://about.validator.nu/htmlparser/.

Написанный для использования алгоритма синтаксического анализатора HTML5 одним из главных действующих лиц HTML5, Анри Сивоненом из Mozilla, вы не найдете более надежного анализатора HTML, и он создает настоящий DOM, которым можно манипулировать с помощью стандартных инструментов XML, и запрашивать гиперссылки с помощью XPath. Есть примеры того, как использовать преобразования XSLT с ним и как получить сериализацию XML созданного DOM.