Ссылка на анализ Jsoup <a href="www.abc.com">
Я хочу извлечь ссылки из HTML, используя jsoup
Ожидаемый результат: абсолютная ссылка.
Для этого я использую "abs: href".
Это работает:
Jsoup.parse("<a \n\r\t href=\"http://www.ibm.com/123/?id=abc\">\nhaha</a>", "http://www.ibm.com");
поставляет: http://www.ibm.com/123/?id=abc
Это не работает:
Jsoup.parse("<a \n\r\t href=\"www.ibm.com/123/?id=abc\">\nhaha</a>", "http://www.ibm.com");
поставляет: http://www.ibm.com/www.ibm.com/123/?id=abc
Я знаю, что довольно трудно понять, является ли www.ibm.com абсолютной или относительной ссылкой. Это может быть домен верхнего уровня, но также имя Folderame. Есть проверенные решения? Просто этот хак приходит мне в голову
String domain = url.replace("http://", "");
url.replace(domain + domain, domain);
1 ответ
Ваш второй пример однозначно относительный URL. Абсолютный URL по определению начинается с протокола (например, http или https). Все браузеры выдают одинаковый вывод для вашего примера.
Можете ли вы привести пример URL, с которым вы работаете? Почему у него есть эти псевдо-абсолютные URL?