Используя jpedal для извлечения гиперссылок из html? --Джава

JPedal библиотека в Java обычно используется для преобразования PDF в XML или HTML. Однако мне нужно было знать, можем ли мы извлечь данные из документа HTML5 и сохранить их в XML с помощью API библиотеки JPedal? Есть ли другая возможная альтернатива этому?

Кроме того, я пытаюсь разобрать документ HTML5 с помощью Java и сохранить его в формате XML. Есть ли хорошие решения, чтобы найти только определенные теги и сделать из них XML?

Пожалуйста, дайте мне знать. Спасибо.

1 ответ

Существует несколько синтаксических анализаторов Java HTML, но я рекомендую использовать анализатор HTML5 из ​​validator.nu, который можно загрузить здесь: http://about.validator.nu/htmlparser/.

Написанный для использования алгоритма синтаксического анализатора HTML5 одним из главных действующих лиц HTML5, Анри Сивоненом из Mozilla, вы не найдете более надежного анализатора HTML, и он создает настоящий DOM, которым можно манипулировать с помощью стандартных инструментов XML, и запрашивать гиперссылки с помощью XPath. Есть примеры того, как использовать преобразования XSLT с ним и как получить сериализацию XML созданного DOM.

Другие вопросы по тегам