Сканирование тяжелого сайта на Javascript с помощью Ruby

Я хочу отсканировать / очистить несколько веб-сайтов, которые в значительной степени зависят от Javascript, который не может обработать мой Механизирующий агент (тот, который я обычно использую), поскольку он не может отобразить html. Хорошим примером является этот сайт.

Есть ли какой-нибудь способ получить рендеринг html-вывода этого сайта из приложения Ruby on Rails?

Я использую Ruby 2.0.0 и Rails 4.0.1

2 ответа

Решение

Вы можете использовать Капибару, чтобы сделать это. Вот ресурс:

Или поищите в Google скребок "Капибара".

Стоит отметить, что производительность будет ужасной. Я построил такой скребок, и это почти не стоило того.

Вы можете использовать I-Macros для webscraping. Упомянутый вами сайт использует фреймы. поэтому каждый кадр можно рассматривать как отдельные страницы и очищать. В качестве альтернативы вы можете использовать простую Java-программу, используя API-интерфейсы Apache HttpClient/HtmlUnit.

Другие вопросы по тегам