Гусеничный в Groovy (JSoup VS Crawler4j)

Я хочу разработать веб-сканер в Groovy(с использованием инфраструктуры Grails и базы данных MongoDB), который может сканировать веб-сайт, создавая список URL-адресов сайтов и их типов ресурсов, их содержимого, времени отклика и количества задействованных перенаправлений.

Я спорю по поводу JSoup против Crawler4j. Я читал о том, что они в основном делают, но я не могу ясно понять разницу между ними. Может кто-нибудь предложить, что было бы лучше для вышеуказанной функциональности? Или это совершенно неверно сравнивать два?

Благодарю.

1 ответ

Решение

Crawler4J - это сканер, Jsoup - анализатор. На самом деле вы могли / должны использовать оба. Crawler4J - это простой многопоточный интерфейс для получения всех URL-адресов и всех страниц (контента) нужного вам сайта. После этого вы можете использовать Jsoup для анализа данных с помощью удивительных (jquery-подобных) селекторов css и фактически с ними что-то делать. Конечно, вы должны учитывать динамический (сгенерированный JavaScript) контент. Если вы тоже хотите этот контент, то вам нужно использовать что-то еще, включающее движок javascript (безголовый браузер + анализатор), такой как htmlunit или webdriver (selenium), который будет выполнять javascript перед анализом контента.

Другие вопросы по тегам