Эффективный способ разобрать дамп HTML, найденный в виде строки
Пожалуйста, разберитесь с этим тривиальным вопросом. Он доступен в виде кусочков в стеке потока.
У меня есть HTML-дамп сайта в виде строки. Я хочу извлечь текст из конкретных его тегов.
По-другому, я хочу подражать
Document doc = Jsoup.connect(url).userAgent("Mozilla").get();
Elements links = doc.getElementsByTag("cite");
Я не использую Jsoup, потому что я не хочу, чтобы он подключался к веб-сайту (у меня есть другой сервис, который возвращает дамп html в виде текста). Я нашел HTMLEditorKit для преобразования текста в HTMLDocument, но он не очень прост в использовании (например, Jsoup или HTMLParser), или я не могу его получить.
Любая помощь будет полезна.
Благодарю.
1 ответ
Решение
Если вы использовали Jsoup, и он все еще работал, вы должны продолжать использовать его.
Document doc = Jsoup.parse("<html>...");
следует сделать.
см.: API