Извлечение изображения с веб-страницы в Java

Я только начал работать над проектом по извлечению контента. Сначала я пытаюсь использовать URL-адреса изображений на веб-странице. В некоторых случаях атрибут src в img имеет относительный URL. Но мне нужно получить полный URL.

Я искал библиотеку Java для этого и подумал, что Jsoup будет полезен. Есть ли какая-нибудь другая библиотека для этого?

1 ответ

Если вам просто нужно получить полный URL-адрес от относительного, решение просто в Java:

URL pageUrl = base_url_of_the_html_page;
String src = src_attribute_value; //relative or absolute URL
URL imgUrl = new URL(pageUrl, src);

Базовый URL-адрес HTML-страницы обычно является URL-адресом, с которого вы получили HTML-код. Тем не менее, тег , используемый в заголовке документа, может использоваться для указания другого базового URL (но он используется не очень часто).

Вы можете использовать Jsoup или просто анализатор DOM для получения значений атрибута src и для поиска возможного базового тега.

Другие вопросы по тегам