Scrapy + splash: невозможно выбрать элемент

Я учусь использовать терапию со всплеском. В качестве упражнения я пытаюсь зайти на https://www.ubereats.com/stores/, нажать на текстовое поле адреса, ввести местоположение, а затем нажать кнопку "Ввод", чтобы перейти на следующую страницу, содержащую рестораны, доступные для этого. место нахождения. У меня есть следующий код Луа:

function main(splash)
  local url = splash.args.url
  assert(splash:go(url))
  assert(splash:wait(5))

  local element = splash:select('.base_29SQWm')
  local bounds = element:bounds()
  assert(element:mouseclick{x = bounds.width/2, y = bounds.height/2})
    assert(element:send_text("Wall Street"))
  assert(splash:send_keys("<Return>"))
  assert(splash:wait(5))

  return {
  html = splash:html(),
  }
end

Когда я нажимаю "Render!" в всплеск API я получаю следующее сообщение об ошибке:

  {
      "info": {
          "message": "Lua error: [string \"function main(splash)\r...\"]:7: attempt to index local 'element' (a nil value)",
          "type": "LUA_ERROR",
          "error": "attempt to index local 'element' (a nil value)",
          "source": "[string \"function main(splash)\r...\"]",
          "line_number": 7
      },
      "error": 400,
      "type": "ScriptError",
      "description": "Error happened while executing Lua script"
  }

Каким-то образом мое выражение CSS неверно, в результате чего всплеск пытается получить доступ к элементу, который не определен /nil! Я пробовал другие выражения, но я не могу понять это!

Q: Кто-нибудь знает, как решить эту проблему?

РЕДАКТИРОВАТЬ: Хотя я все еще хотел бы знать, как на самом деле нажать на элемент, я выяснил, как получить тот же результат, просто используя клавиши:

function main(splash)
    local url = splash.args.url
    assert(splash:go(url))
    assert(splash:wait(5))
    splash:send_keys("<Tab>")
    splash:send_keys("<Tab>")
    splash:send_text("Wall Street, New York")
    splash:send_keys("<Return>")
    assert(splash:wait(10))

    return {
    html = splash:html(),
    png = splash:png(),
    }
  end

Однако возвращаемые html/images в API-интерфейсе заставки поступают со страницы, где вы вводите адрес, а не со страницы, которую вы видите после ввода своего адреса и нажатия кнопки ввода.

Q2: Как мне успешно загрузить вторую страницу?

1 ответ

Решение

Не полное решение, но вот что у меня есть:

import json
import re

import scrapy
from scrapy_splash import SplashRequest


class UberEatsSpider(scrapy.Spider):
    name = "ubereatspider"
    allowed_domains = ["ubereats.com"]

    def start_requests(self):
        script = """
        function main(splash)
            local url = splash.args.url
            assert(splash:go(url))
            assert(splash:wait(10))

            splash:set_viewport_full()

            local search_input = splash:select('#address-selection-input')
            search_input:send_text("Wall Street, New York")
            assert(splash:wait(5))

            local submit_button = splash:select('button[class^=submitButton_]')
            submit_button:click()

            assert(splash:wait(10))

            return {
                html = splash:html(),
                png = splash:png(),
            }
          end
        """
        headers = {
            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.95 Safari/537.36'
        }
        yield SplashRequest('https://www.ubereats.com/new_york/', self.parse, endpoint='execute', args={
            'lua_source': script,
            'wait': 5
        }, splash_headers=headers, headers=headers)

    def parse(self, response):
        script = response.xpath("//script[contains(., 'cityName')]/text()").extract_first()
        pattern = re.compile(r"window.INITIAL_STATE = (\{.*?\});", re.MULTILINE | re.DOTALL)

        match = pattern.search(script)
        if match:
            data = match.group(1)
            data = json.loads(data)
            for place in data["marketplace"]["marketplaceStores"]["data"]["entity"]:
                print(place["title"])

Обратите внимание на изменения в скрипте Lua: я нашел поисковый ввод, отправил ему текст поиска, затем нашел кнопку "Найти" и нажал на нее. На скриншоте я не видел загруженных результатов поиска независимо от установленной задержки, но мне удалось получить названия ресторанов из script содержание. place Объекты содержат всю необходимую информацию для фильтрации нужных ресторанов.

Также обратите внимание, что URL-адрес, по которому я перехожу, является "нью-йоркским" (не общие "магазины").

Я не совсем уверен, почему страница результатов поиска не загружается, но надеюсь, что это будет хорошим началом для вас, и вы сможете еще больше улучшить это решение.

Другие вопросы по тегам