Извлечение изображения с веб-страницы в Java
Я только начал работать над проектом по извлечению контента. Сначала я пытаюсь использовать URL-адреса изображений на веб-странице. В некоторых случаях атрибут src в img имеет относительный URL. Но мне нужно получить полный URL.
Я искал библиотеку Java для этого и подумал, что Jsoup будет полезен. Есть ли какая-нибудь другая библиотека для этого?
1 ответ
Если вам просто нужно получить полный URL-адрес от относительного, решение просто в Java:
URL pageUrl = base_url_of_the_html_page;
String src = src_attribute_value; //relative or absolute URL
URL imgUrl = new URL(pageUrl, src);
Базовый URL-адрес HTML-страницы обычно является URL-адресом, с которого вы получили HTML-код. Тем не менее, тег
Вы можете использовать Jsoup или просто анализатор DOM для получения значений атрибута src и для поиска возможного базового тега.