Эффективный способ разобрать дамп HTML, найденный в виде строки

Пожалуйста, разберитесь с этим тривиальным вопросом. Он доступен в виде кусочков в стеке потока.

У меня есть HTML-дамп сайта в виде строки. Я хочу извлечь текст из конкретных его тегов.

По-другому, я хочу подражать

Document doc = Jsoup.connect(url).userAgent("Mozilla").get();
Elements links = doc.getElementsByTag("cite");

Я не использую Jsoup, потому что я не хочу, чтобы он подключался к веб-сайту (у меня есть другой сервис, который возвращает дамп html в виде текста). Я нашел HTMLEditorKit для преобразования текста в HTMLDocument, но он не очень прост в использовании (например, Jsoup или HTMLParser), или я не могу его получить.

Любая помощь будет полезна.

Благодарю.

1 ответ

Решение

Если вы использовали Jsoup, и он все еще работал, вы должны продолжать использовать его.

Document doc = Jsoup.parse("<html>...");

следует сделать.

см.: API

Другие вопросы по тегам