Описание тега scrapy-splash

NoneScrapy-splash - это плагин scrapy для интеграции фреймворка Scrapy со Splash - службой рендеринга JavaScript.
0 ответов

Всплеск не рендеринг страницы полностью

Я учился с помощью Scrapy + Splash для очистки веб-страниц с JS. У меня проблема с одним сайтом - https://aukro.cz/mobilni-telefony - он не рендерит полностью. Вместо этого у меня есть целая страница с пустым списком товаров. поцарапанная страница Я…
23 апр '18 в 16:55
1 ответ

Как Scrapy-Splash реализует прокси-профили?

У меня возникают некоторые проблемы с использованием Scrapy-Splash вместе с прокси-сервером HTTP (см. "500 Внутренняя ошибка сервера" при объединении Scrapy over Splash с HTTP-прокси), даже когда я пытаюсь установить профиль прокси после http://spla…
13 июл '17 в 09:36
0 ответов

Как мне прокрутить несколько раз до конца веб-страницы с Lua?

Основываясь на ответе на этот вопрос и приведенном здесь коде, я сделал следующую функцию для прокрутки веб-страницы, пока она не останется прежней: function main(splash) local scroll_delay = 0.2 local previous_height = -1 local number_of_scrolls = …
11 янв '18 в 22:45
2 ответа

Splash не выполняет Javascript при использовании прокси

Я использую scrapy_splash для сканирования страниц, которые требуют JS для получения надлежащего содержимого. Все нормально, когда я использую SplashRequest без настроек прокси, но когда я добавляю настройки прокси, javascript не рендерится, давая м…
04 фев '17 в 07:57
0 ответов

Страница не загружается (без html тела) для извлечения данных в Scapy

Я использовал Scrapy 1.5.0 для сканирования продуктов на веб-сайте во время сканирования, оно показало мне проблему перенаправления 302, но не сканирует данные для некоторых страниц. Redirecting (302) to <GET www.xyz.com> Итак, я использовал s…
1 ответ

scrapy_splash.SplashRequest не выполняет функцию обратного вызова, когда запланировано scrapyd

Я действительно столкнулся с некоторым странным поведением (с моей точки зрения знания) обратного вызова SplashRequest, когда он выполняется scrapyd. Scrapy Sourcecode from scrapy.spiders.Spider import Spider from scrapy import Request import scrapy…
29 янв '17 в 14:31
1 ответ

Влияет ли использование scrapy-splash на скорость очистки?

До сих пор я использовал только scrapy и писал собственные классы для работы с сайтами, использующими ajax. Но если бы я использовал scrapy-splash, который, насколько я понимаю, очищает рендеринг html после javascript, значительно ли повлияет скорос…
3 ответа

Как очистить сайты на основе AJAX с помощью Scrapy и Splash?

Я хочу сделать общий скребок, который может сканировать и очищать все данные с любого типа веб-сайта, включая веб-сайты AJAX. Я интенсивно искал в Интернете, но не смог найти какой-либо подходящей ссылки, которая могла бы объяснить мне, как Scrapy и…
08 июн '17 в 12:43
0 ответов

scrapy всегда Запуск нового HTTP-соединения после сканирования

После того, как мой паук просканировал все URL, копирование не прекратилось, как остановить его после завершения сканирования? Начальный URL http://http://192.168.139.28/dvwa, После того, как мой паук закончил, кажется, что паук всегда Starting new …
10 янв '18 в 07:21
0 ответов

Scrapy + Splash: в запросе отсутствует схема url: render.html, но в URL есть схема

Я пытаюсь собрать названия продуктов и цены с этого сайта, используя следующий код: class ProductSpider(scrapy.Spider): name = 'product' start_urls = ['https://www.bodyenfitshop.nl/'] def parse(self, response): # follow links to different categories…
31 май '17 в 20:59
1 ответ

Scrapy-splash не позволяет завершить бесконечную прокрутку

Я перебираю сайт дилера подержанных автомобилей, на страницах которого есть немного javascript, поэтому я использую scrapy-splash. У веб-страниц автодилера также есть бесконечная прокрутка, пока все их автомобили не перечислены. У меня проблема в то…
29 апр '18 в 21:54
0 ответов

Настройка Pycharm Scrapy-Splash с докером

Я использую Pycharm для управления чистящими проектами с помощью Scrapy, и для обычного html он работает нормально, но я пытался использовать плагин scrapy-splash для очистки сайтов с помощью Javascript. https://github.com/scrapy-plugins/scrapy-spla…
04 апр '17 в 05:42
0 ответов

Как использовать прокси в проекте scrapy-splash?

Я пытаюсь использовать прокси в scrapy-splash. Я нашел вопрос, используя прокси с scrapy-splash Тогда я использую как: yield SplashRequest(url, self.parse_page_site, args={'wait': 1.5, 'proxy': 'http://202.74.243.214:31255'}) Но, похоже, не работает…
16 ноя '18 в 09:32
0 ответов

Всплеск Scrapy не загрузит нужную страницу

Я пытался очистить некоторые страницы из лазады, используя scrapy-splash: https://www.lazada.sg/shop-mobiles/?page=1 https://www.lazada.sg/shop-mobiles/?page=2 https://www.lazada.sg/shop-mobiles/?page=3 Вот мой сценарий: function main(splash, args) …
07 май '18 в 17:38
0 ответов

Как использовать Crawlera с Splash?

Я пытаюсь загрузить страницу, используя Crawlera и Splash, но безуспешно. Редко я получаю ответ успеха, но без рендеринга Js. Чаще всего я получаю пустой результат, как это <html> <head> </head> <body> </body? </html&gt…
18 окт '17 в 08:53
1 ответ

Проблема с Splash, возвращающим несколько снимков HTML

Я пытаюсь вернуть несколько html-страниц, используя скрипты-заставки (в одном ответе, как в документации) и извлекая из них ссылки. Но я обнаружил, что в response.text и response.body содержание html изменяется всякий раз, когда возвращается более о…
09 июн '18 в 20:35
1 ответ

Scrapy Splash - Оставайтесь на связи

Мне удалось подключиться к веб-сайту с помощью scrapy+splash (благодаря этой теме). Я знаю, что вошел в систему, потому что я могу отображать некоторые элементы, которые доступны после входа в систему. Но как только я пытаюсь перейти на другую стран…
26 июл '17 в 13:49
1 ответ

Всплеск не получает всю страницу

Сначала я запускаю splash на докере, используя: docker run -p 8050:8050 scrapinghub/splash Когда я иду в порт 8050 и пытаюсь сделать: http://warframe.market/ Это не делает тело. Более конкретно между <section id="warframe_react"><section&gt…
29 апр '18 в 14:12
2 ответа

Scrapy - Получение 504 тайм-аута шлюза после первых запросов

Я использовал Scrapy для удаления контента от нас, и теперь я пытаюсь интегрироваться с Splash для запуска Javascript для страниц. Проблема в том, что когда я запускаю сканер, примерно первые 20 запросов возвращают пустое содержимое, а все остальные…
20 июн '18 в 13:54
0 ответов

Docker Splash с Scrapy не работает

Я пытаюсь очистить веб-сайт, на котором включен JavaScript с помощью плагина scrapy-splash. я установил заставку с докером с этими командами я использую Ubuntu 16.04 $ sudo docker pull scrapinghub/splash $ sudo docker run -p 8050:8050 scrapinghub/sp…