Веб-сканер в рельсах, как сканировать все страницы сайта
Мне нужно получить все URL со всех страниц данного домена,
Я думаю, что имеет смысл использовать фоновые задания, помещая их в несколько очередей
пытаясь использовать паутину, но это кажется очень запутанным драгоценным камнем,
и аномон, анемон работает долго, если страниц много
require 'anemone'
Anemone.crawl("http://www.example.com/") do |anemone|
anemone.on_every_page do |page|
puts page.links
end
end
Как ты думаешь, что подойдет мне лучше всего?
1 ответ
Ты можешь использовать Nutch
Crawler, Apache Nutch - это расширяемый и масштабируемый программный проект с открытым исходным кодом.