Эффективный способ разобрать дамп HTML, найденный в виде строки

Question

Эффективный способ разобрать дамп HTML, найденный в виде строки

Пожалуйста, разберитесь с этим тривиальным вопросом. Он доступен в виде кусочков в стеке потока.

У меня есть HTML-дамп сайта в виде строки. Я хочу извлечь текст из конкретных его тегов.

По-другому, я хочу подражать

Document doc = Jsoup.connect(url).userAgent("Mozilla").get();
Elements links = doc.getElementsByTag("cite");

Я не использую Jsoup, потому что я не хочу, чтобы он подключался к веб-сайту (у меня есть другой сервис, который возвращает дамп html в виде текста). Я нашел HTMLEditorKit для преобразования текста в HTMLDocument, но он не очень прост в использовании (например, Jsoup или HTMLParser), или я не могу его получить.

Любая помощь будет полезна.

Благодарю.

0

java jsoup html-parsing htmleditorkit

Источник

user934796 13 апр '12 в 06:41

1 ответ

Решение

Другие вопросы по тегам java jsoup html-parsing htmleditorkit

user881272 13 апр '12 в 06:47 2012-04-13 06:47 · Accepted Answer · 2012-04-13 06:47

Если вы использовали Jsoup, и он все еще работал, вы должны продолжать использовать его.

Document doc = Jsoup.parse("<html>...");

следует сделать.

см.: API

3

Источник

user881272 13 апр '12 в 06:47