Извлечение статей из Новостей Google и загрузка их на Java
Как мне написать программу, которая может брать статьи из Новостей Google и загружать их на мой компьютер?
Я обнаружил, что в Новостях Google уже есть встроенная функция RSS, но мне нужно загрузить всю статью (текст и все), а не только заголовок.
Желательно, чтобы я загружал эти статьи в виде PDF-файлов или HTML-файлов, но для начала было бы просто извлечь некоторые URL-адреса.
Здесь были некоторые вопросы о получении статей из Новостей Google, но ничего, что я нашел до сих пор, не было особенно полезным. Любая помощь будет высоко ценится.
Спасибо!
1 ответ
За исключением юридических вопросов, это возможно, смотрите Apache HttpComponents. Вот пример ( взятый отсюда) того, как его использовать:
DefaultHttpClient httpclient = new DefaultHttpClient();
if ( useProxy == true ) {
HttpHost proxy = new HttpHost(proxyStr, 80, "http");
httpclient.getParams().setParameter(ConnRoutePNames.DEFAULT_PROXY, proxy);
}
HttpGet httpget = new HttpGet(urlStr);
httpget.addHeader("Authorization", "Basic " + encodedAuth);
HttpResponse response = httpclient.execute(httpget);
Но имейте в виду Google TOS, прежде чем делать что-то подобное.