Как извлечь текст без HTML-тегов из веб-страницы с помощью HtmlUnit?
Я только начинаю работать с HTMLUnit, и я хочу взять веб-страницу и извлечь из нее необработанный текст без всякой разметки html.
Может ли htmlunit добиться этого? Если так, то как? Или есть другая библиотека, на которую я должен смотреть?
например, если страница содержит
<body><p>para1 test info</p><div><p>more stuff here</p></div>
Я хотел бы, чтобы это вывело
para1 test info more stuff here
Спасибо
1 ответ
Решение
http://htmlunit.sourceforge.net/gettingStarted.html указывает, что это действительно возможно.
@Test
public void homePage() throws Exception {
final WebClient webClient = new WebClient();
final HtmlPage page = webClient.getPage("http://htmlunit.sourceforge.net");
assertEquals("HtmlUnit - Welcome to HtmlUnit", page.getTitleText());
final String pageAsXml = page.asXml();
assertTrue(pageAsXml.contains("<body class=\"composite\">"));
final String pageAsText = page.asText();
assertTrue(pageAsText.contains("Support for the HTTP and HTTPS protocols"));
}
NB. Команда page.asText(), кажется, предлагает именно то, что вам нужно.
Javadoc для asText (Унаследовано от DomNode до HtmlPage)