Неверный заголовок файла cookie, а затем он запрашивает авторизацию
Я пытаюсь сканировать страницу, требующую аутентификации Siteminder, поэтому я пытаюсь передать свое имя пользователя и пароль в самом коде, чтобы получить доступ к этой странице и продолжать сканировать все ссылки, которые есть на этой странице. Это мое Controller.java
код. И из этого класса MyCrawler вызывается.
public class Controller {
public static void main(String[] args) throws Exception {
CrawlController controller = new CrawlController("/data/crawl/root");
controller.addSeed("http://ho.somehost.com/");
controller.start(MyCrawler.class, 10);
controller.setPolitenessDelay(200);
controller.setMaximumCrawlDepth(3);
}
}
И это мой код MyCrawler.java. В этом я передаю свои учетные данные (имя пользователя и пароль) для аутентификации администратора сайта. И просто хотел убедиться, что аутентификация должна выполняться в этом коде MyCrawler или в приведенном выше коде контроллера.??? И этот гусеничный код взят отсюда (http://code.google.com/p/crawler4j/)
public class MyCrawler extends WebCrawler {
Pattern filters = Pattern.compile(".*(\\.(css|js|bmp|gif|jpe?g"
+ "|png|tiff?|mid|mp2|mp3|mp4" + "|wav|avi|mov|mpeg|ram|m4v|pdf"
+ "|rm|smil|wmv|swf|wma|zip|rar|gz))$");
public MyCrawler() {
}
public boolean shouldVisit(WebURL url) {
System.out.println("RJ:- " +url);
DefaultHttpClient client = null;
try
{
// Set url
//URI uri = new URI(url.toString());
client = new DefaultHttpClient();
client.getCredentialsProvider().setCredentials(
new AuthScope(AuthScope.ANY_HOST, AuthScope.ANY_PORT, null),
new UsernamePasswordCredentials("test", "test"));
// Set timeout
//client.getParams().setParameter(CoreConnectionPNames.SO_TIMEOUT, 5000);
HttpGet request = new HttpGet(url.toString());
HttpResponse response = client.execute(request);
if(response.getStatusLine().getStatusCode() == 200)
{
InputStream responseIS = response.getEntity().getContent();
BufferedReader reader = new BufferedReader(new InputStreamReader(responseIS));
String line = reader.readLine();
while (line != null)
{
System.out.println(line);
line = reader.readLine();
}
}
else
{
System.out.println("Resource not available");
}
}
catch (ClientProtocolException e)
{
System.out.println(e.getMessage());
}
catch (ConnectTimeoutException e)
{
System.out.println(e.getMessage());
}
catch (IOException e)
{
System.out.println(e.getMessage());
}
catch (Exception e)
{
System.out.println(e.getMessage());
}
finally
{
if ( client != null )
{
client.getConnectionManager().shutdown();
}
}
String href = url.getURL().toLowerCase();
if (filters.matcher(href).matches()) {
return false;
}
if (href.startsWith("http://")) {
return true;
}
return false;
}
public void visit(Page page) {
int docid = page.getWebURL().getDocid();
String url = page.getWebURL().getURL();
String text = page.getText();
List<WebURL> links = page.getURLs();
int parentDocid = page.getWebURL().getParentDocid();
System.out.println("Docid: " + docid);
System.out.println("URL: " + url);
System.out.println("Text length: " + text.length());
System.out.println("Number of links: " + links.size());
System.out.println("Docid of parent page: " + parentDocid);
System.out.println("=============");
}
}
Я печатаю URL, чтобы я мог видеть, какие URL печатаются. Таким образом, он печатает два URL-адреса, один фактический URL-адрес, который требует аутентификации, а затем некоторый URL-адрес siteminder. И когда я запускаю этот проект, я получаю сообщение об ошибке следующим образом
RJ:- http://ho.somehost.com/net/pa/ho.xhtml
WARN [Crawler 1] Invalid cookie header: "Set-Cookie: SMCHALLENGE=; expires=Sat, 15 Jan 2011 02:52:54 GMT; path=/; domain=.somehost.com". Unable to parse expires attribute: Sat, 15 Jan 2011 02:52:54 GMT
WARN [Crawler 1] Invalid cookie header: "Set-Co## Heading ##okie: SMIDENTITY=nzFSq2U3g/C3C6/jkj/Ocghyh/njK; expires=Sat, 13 Jul 2013 02:52:54 GMT; path=/; domain=.somehost.com". Unable to parse expires attribute: Sat, 13 Jul 2013 02:52:54 GMT
null
INFO [Crawler 1] Number of pages fetched per second: 0
RJ:- https://lo.somehost.com/site/no/176/sm.exhtml
WARN [Crawler 1] Invalid cookie header: "Set-Cookie: SMCHALLENGE=; expires=Sat, 15 Jan 2011 02:52:56 GMT; path=/; domain=.somehost.com". Unable to parse expires attribute: Sat, 15 Jan 2011 02:52:56 GMT
WARN [Crawler 1] Invalid cookie header: "Set-Cookie: SMIDENTITY=IqsIPo; expires=Sat, 13 Jul 2013 02:52:56 GMT; path=/; domain=.somehost.com". Unable to parse expires attribute: Sat, 13 Jul 2013 02:52:56 GMT
Будем благодарны за любые предложения. И если я скопирую этот URL-адрес для входа в систему в браузере, он попросит ввести имя пользователя и пароль, а если я введу свое имя пользователя и пароль, то я получу реальный экран.
1 ответ
Извлечение существенного содержания обсуждения в чате для потомков, на случай, если кто-то столкнется с той же проблемой.
Появилось предупреждающее сообщение о том, что HttpClient не удалось проанализировать Set-Cookie
заголовок, выданный SiteMinder. Анализ сетевого трафика с использованием Wireshark выявил следующее:
- Атрибут expires для файла cookie SMSESSION, который был выпущен SiteMinder, не был установлен. Это не причина проблемы; это всего лишь примечание, что HTTP-ответ от сервера, ответственного за предупреждение, нужно искать.
- Предупреждения были выданы для печенья
SMCHALLENGE
а такжеSMIDENTITY
, Поэтому ответы, содержащиеSet-Cookie
Заголовки для этих двух файлов cookie необходимо изучить. - Проблема может быть в:
- куки сами оценивают, или
- формат дат в атрибуте expires файлов cookie.
- Ошибка № 923 в HttpClient была исправлена в версии 4.1.1 HttpClient и могла содержать разрешение. Исправление предназначено для поддержки двух- и четырехзначных лет и может быть причиной проблемы.
Если вышеупомянутое (использование 4-значных лет в значении cookie истекает) оказывается неверной основной причиной, то необходимо указать формат даты, используемый для анализа значения cookie. Это можно сделать, указав список разрешенных / принятых форматов даты с помощью HttpClient следующим образом:
HttpGet request = new HttpGet(url.toString());
request.getParams().setParameter(CookieSpecPNames.DATE_PATTERNS, Arrays.asList("EEE, d MMM yyyy HH:mm:ss z"));
HttpResponse response = client.execute(request);
вместо существующих звонков:
HttpGet request = new HttpGet(url.toString());
HttpResponse response = client.execute(request);
Указанный шаблон EEE, d MMM yyyy HH:mm:ss z
является допустимым шаблоном для дат, которые, по-видимому, анализируются неправильно (по сообщениям в консоли). Вам нужно будет добавить дополнительные шаблоны, если есть другие форматы даты, которые HttpClient неправильно обрабатывает. Подробнее об используемом формате см. В документации по классу SimpleDateFormat.