Восстановление полной веб-страницы с использованием httpclient
Я новичок в java.i возникла проблема, мне нужно сохранить полную веб-страницу (со всем ее содержимым, например изображения, CSS, Javascript и т. д.), например, как мы можем сделать это с помощью опции сохранить как -> полная веб-страница с помощью HttpClient lib. Пожалуйста, покажи мне, как это сделать.
3 ответа
Вы можете попробовать lib curl java http://curl.haxx.se/libcurl/java/
И вы можете сослаться на это обсуждение также curl-эквивалент-в-Java
Это не так просто, потому что некоторые пути к файлам CSS/JS/Images могут быть "скрыты". Просто рассмотрите следующий пример:
<script type="...">
document.write("&bla;script" + " type='...' src='" + blahBlah() + "'&bla;" + "&bla;/script&bla;");
</script>
Тем не менее, выбор источника страницы, анализ в поиске URL-адресов и загрузка найденных URL-адресов - все, что вам, вероятно, понадобится.
Вы должны написать приложение, которое извлекает HTML-файл, анализирует его и извлекает все ссылки, а затем извлекает все файлы, найденные при разборе.