Веб-сканер в рельсах, как сканировать все страницы сайта

Мне нужно получить все URL со всех страниц данного домена,
Я думаю, что имеет смысл использовать фоновые задания, помещая их в несколько очередей
пытаясь использовать паутину, но это кажется очень запутанным драгоценным камнем,
и аномон, анемон работает долго, если страниц много

require 'anemone'

Anemone.crawl("http://www.example.com/") do |anemone|
  anemone.on_every_page do |page|
      puts page.links
  end
end

Как ты думаешь, что подойдет мне лучше всего?

1 ответ

Ты можешь использовать Nutch Crawler, Apache Nutch - это расширяемый и масштабируемый программный проект с открытым исходным кодом.

Другие вопросы по тегам