Разбор гиперссылок Java Jericho
Я пытаюсь найти способ получить все гиперссылки на веб-странице - кроме случаев, когда они находятся в теге привязки ().
Для этого я использую анализатор Jericho.
Мой первоначальный подход состоял в том, чтобы принять разницу между List<Element> elementList = source.getAllElements();
а также getAllElements(HTMLElementName.A)
, но другие элементы могут также содержать в себе якорную ссылку, поэтому я не думаю, что это правильный подход.
1 ответ
Я рекомендую вам Jsoup для обработки HTML.
Вот пример, как вы можете получить все ссылки (= a
-тег с href
атрибута по):
Document doc = Jsoup.connect("http:// - link here -").get(); // Connect to website and parse its html
Elements links = doc.select("a[href]"); // Select all 'a'-tags' with 'href'-attribute
for( Element element : links ) // iterate over all links (example)
{
// process element
}
Документация:
Btw. Вы можете объяснить это немного больше?
кроме случаев, когда они находятся в теге привязки