Разбор гиперссылок Java Jericho

Я пытаюсь найти способ получить все гиперссылки на веб-странице - кроме случаев, когда они находятся в теге привязки ().

Для этого я использую анализатор Jericho.

Мой первоначальный подход состоял в том, чтобы принять разницу между List<Element> elementList = source.getAllElements(); а также getAllElements(HTMLElementName.A), но другие элементы могут также содержать в себе якорную ссылку, поэтому я не думаю, что это правильный подход.

1 ответ

Я рекомендую вам Jsoup для обработки HTML.

Вот пример, как вы можете получить все ссылки (= a-тег с hrefатрибута по):

Document doc = Jsoup.connect("http:// - link here -").get(); // Connect to website and parse its html
Elements links = doc.select("a[href]"); // Select all 'a'-tags' with 'href'-attribute

for( Element element : links ) // iterate over all links (example)
{
    // process element
}

Документация:

Btw. Вы можете объяснить это немного больше?

кроме случаев, когда они находятся в теге привязки

Другие вопросы по тегам