Ссылка на анализ Jsoup <a href="www.abc.com">

Я хочу извлечь ссылки из HTML, используя jsoup

Ожидаемый результат: абсолютная ссылка.

Для этого я использую "abs: href".

Это работает:

Jsoup.parse("<a \n\r\t  href=\"http://www.ibm.com/123/?id=abc\">\nhaha</a>", "http://www.ibm.com");

поставляет: http://www.ibm.com/123/?id=abc

Это не работает:

Jsoup.parse("<a \n\r\t  href=\"www.ibm.com/123/?id=abc\">\nhaha</a>", "http://www.ibm.com");

поставляет: http://www.ibm.com/www.ibm.com/123/?id=abc

Я знаю, что довольно трудно понять, является ли www.ibm.com абсолютной или относительной ссылкой. Это может быть домен верхнего уровня, но также имя Folderame. Есть проверенные решения? Просто этот хак приходит мне в голову

String domain = url.replace("http://", "");
url.replace(domain + domain, domain);

1 ответ

Ваш второй пример однозначно относительный URL. Абсолютный URL по определению начинается с протокола (например, http или https). Все браузеры выдают одинаковый вывод для вашего примера.

Можете ли вы привести пример URL, с которым вы работаете? Почему у него есть эти псевдо-абсолютные URL?

Другие вопросы по тегам