Используя jpedal для извлечения гиперссылок из html? --Джава
JPedal библиотека в Java обычно используется для преобразования PDF в XML или HTML. Однако мне нужно было знать, можем ли мы извлечь данные из документа HTML5 и сохранить их в XML с помощью API библиотеки JPedal? Есть ли другая возможная альтернатива этому?
Кроме того, я пытаюсь разобрать документ HTML5 с помощью Java и сохранить его в формате XML. Есть ли хорошие решения, чтобы найти только определенные теги и сделать из них XML?
Пожалуйста, дайте мне знать. Спасибо.
1 ответ
Существует несколько синтаксических анализаторов Java HTML, но я рекомендую использовать анализатор HTML5 из validator.nu, который можно загрузить здесь: http://about.validator.nu/htmlparser/.
Написанный для использования алгоритма синтаксического анализатора HTML5 одним из главных действующих лиц HTML5, Анри Сивоненом из Mozilla, вы не найдете более надежного анализатора HTML, и он создает настоящий DOM, которым можно манипулировать с помощью стандартных инструментов XML, и запрашивать гиперссылки с помощью XPath. Есть примеры того, как использовать преобразования XSLT с ним и как получить сериализацию XML созданного DOM.