crawler4j для сканирования списка URL-адресов без сканирования всего веб-сайта
У меня есть список веб-URL, которые нужно сканировать. Возможно ли сканировать только список веб-страниц без глубокого сканирования. Если я добавлю URL в качестве семени, он будет сканировать весь веб-сайт с полной глубиной.
1 ответ
Решение
Чтобы сканировать только те страницы, которые вы добавили в качестве начального числа, установите для MaxDepthOfCrawling значение 0.
CrawlConfig config = new CrawlConfig();
config.setMaxDepthOfCrawling(0);
PageFetcher pageFetcher = new PageFetcher(config);