Веб-сканер в рельсах, как сканировать все страницы сайта

Question

Веб-сканер в рельсах, как сканировать все страницы сайта

Мне нужно получить все URL со всех страниц данного домена,
Я думаю, что имеет смысл использовать фоновые задания, помещая их в несколько очередей
пытаясь использовать паутину, но это кажется очень запутанным драгоценным камнем,
и аномон, анемон работает долго, если страниц много

require 'anemone'

Anemone.crawl("http://www.example.com/") do |anemone|
  anemone.on_every_page do |page|
      puts page.links
  end
end

Как ты думаешь, что подойдет мне лучше всего?

0

ruby-on-rails web-crawler resque anemone

Источник

user1202194 11 окт '13 в 05:32

1 ответ

Другие вопросы по тегам ruby-on-rails web-crawler resque anemone

user1112163 11 окт '13 в 13:19 2013-10-11 13:19 · Answer 1 · 2013-10-11 13:19

Ты можешь использовать Nutch Crawler, Apache Nutch - это расширяемый и масштабируемый программный проект с открытым исходным кодом.

2

Источник

user1112163 11 окт '13 в 13:19