Сканирование тяжелого сайта на Javascript с помощью Ruby

Question

Сканирование тяжелого сайта на Javascript с помощью Ruby

Я хочу отсканировать / очистить несколько веб-сайтов, которые в значительной степени зависят от Javascript, который не может обработать мой Механизирующий агент (тот, который я обычно использую), поскольку он не может отобразить html. Хорошим примером является этот сайт.

Есть ли какой-нибудь способ получить рендеринг html-вывода этого сайта из приложения Ruby on Rails?

Я использую Ruby 2.0.0 и Rails 4.0.1

1

javascript ruby-on-rails ruby web-crawler mechanize

Источник

user1213273 23 ноя '13 в 22:38

2 ответа

Решение

Вы можете использовать I-Macros для webscraping. Упомянутый вами сайт использует фреймы. поэтому каждый кадр можно рассматривать как отдельные страницы и очищать. В качестве альтернативы вы можете использовать простую Java-программу, используя API-интерфейсы Apache HttpClient/HtmlUnit.

0

Источник

user2833484 24 ноя '13 в 12:50

Другие вопросы по тегам javascript ruby-on-rails ruby web-crawler mechanize

user16957 23 ноя '13 в 23:06 2013-11-23 23:06 · Accepted Answer · 2013-11-23 23:06

Вы можете использовать Капибару, чтобы сделать это. Вот ресурс:

http://www.chrisle.me/2012/12/scraping-html5-sites-using-capybara-phantomjs/

Или поищите в Google скребок "Капибара".

Стоит отметить, что производительность будет ужасной. Я построил такой скребок, и это почти не стоило того.