Scrapy Splash - Оставайтесь на связи

Мне удалось подключиться к веб-сайту с помощью scrapy+splash (благодаря этой теме).

Я знаю, что вошел в систему, потому что я могу отображать некоторые элементы, которые доступны после входа в систему. Но как только я пытаюсь перейти на другую страницу с другой SplashRequest, веб-сайт попросить войти снова.

Таким образом, кажется, что скрап (или всплеск) не поддерживает активный сеанс. Есть ли что-то, чтобы включить, чтобы оставаться в журнале и поддерживать сеанс активным?

Спасибо,

1 ответ

Splash запускает каждый рендеринг из чистого состояния, поэтому, если вы хотите сохранить сеанс, вам нужно сначала инициализировать куки, а также уведомить Scrapy о куки, установленных во время рендеринга. См. Раздел " Обработка сеансов " в "Scrapy-splash README". Полный пример может выглядеть следующим образом (копировать-вставить из README):

import scrapy
from scrapy_splash import SplashRequest

script = """
function main(splash)
  splash:init_cookies(splash.args.cookies)
  assert(splash:go{
    splash.args.url,
    headers=splash.args.headers,
    http_method=splash.args.http_method,
    body=splash.args.body,
    })
  assert(splash:wait(0.5))

  local entries = splash:history()
  local last_response = entries[#entries].response
  return {
    url = splash:url(),
    headers = last_response.headers,
    http_status = last_response.status,
    cookies = splash:get_cookies(),
    html = splash:html(),
  }
end
"""

class MySpider(scrapy.Spider):


    # ...
        yield SplashRequest(url, self.parse_result,
            endpoint='execute',
            cache_args=['lua_source'],
            args={'lua_source': script},
        )

    def parse_result(self, response):
        # here response.body contains result HTML;
        # response.headers are filled with headers from last
        # web page loaded to Splash;
        # cookies from all responses and from JavaScript are collected
        # and put into Set-Cookie response header, so that Scrapy
        # can remember them.

Обратите внимание, что сеансы в настоящее время требуют использования конечной точки / execute или / run, для других конечных точек нет помощников.

Другие вопросы по тегам