Сканирование тяжелого сайта на Javascript с помощью Ruby
Я хочу отсканировать / очистить несколько веб-сайтов, которые в значительной степени зависят от Javascript, который не может обработать мой Механизирующий агент (тот, который я обычно использую), поскольку он не может отобразить html. Хорошим примером является этот сайт.
Есть ли какой-нибудь способ получить рендеринг html-вывода этого сайта из приложения Ruby on Rails?
Я использую Ruby 2.0.0 и Rails 4.0.1
2 ответа
Вы можете использовать Капибару, чтобы сделать это. Вот ресурс:
Или поищите в Google скребок "Капибара".
Стоит отметить, что производительность будет ужасной. Я построил такой скребок, и это почти не стоило того.
Вы можете использовать I-Macros для webscraping. Упомянутый вами сайт использует фреймы. поэтому каждый кадр можно рассматривать как отдельные страницы и очищать. В качестве альтернативы вы можете использовать простую Java-программу, используя API-интерфейсы Apache HttpClient/HtmlUnit.