Получать тело запросов, используя селен и прокси

Я хочу иметь возможность получить тело конкретного подзапроса, используя селен за прокси.

Сейчас я использую python + selenium + chromedriver. При ведении журнала я могу получить заголовки каждого подзапроса, но не тело. Мои настройки регистрации:

caps ['loggingPrefs'] = {'performance': 'ALL', 'browser': 'ALL'}

caps ['perfLoggingPrefs'] = {"enableNetwork": True, "enablePage": True, "enableTimeline": True}

Я знаю, что есть несколько вариантов формирования HAR с селеном:

  • Используйте geckodriver и har-export-trigger. Я пытался заставить его работать со следующим кодом:

window.foo = HAR.triggerExport (). then (harLog => {return (harLog);}); возврат window.foo;

К сожалению, я не вижу тела ответа в возвращаемых данных.

  • Используйте прокси-сервер browsermob. Решение кажется вполне подходящим, но я не нашел способа заставить прокси-сервер browsermob работать за прокси-сервером.

Таким образом, вопрос заключается в следующем: как я могу получить тело конкретного сетевого ответа на запрос, сделанный во время загрузки веб-страницы с селеном И использовать прокси.

UPD: На самом деле, с помощью har-export-trigger я получаю тела ответов, но не все из них: мне нужно тело ответа в json, его MIME-тип - text/html; charset=utf-8', и он отсутствует в генерируемом мной файле HAR, поэтому решение по-прежнему отсутствует.

UPD2: После дальнейшего расследования я понял, что тело ответа отсутствует даже на моем настольном Firefox, когда надстройка har-export-trigger включена, так что это решение может быть тупиком ( проблема на Github)

0 ответов

На самом деле, я только что закончил реализацию сценария HAR для селена с помощью инструментов, о которых вы упоминали в этом вопросе Как HAR, получаемый из har-export-trigger, так и BrowserMob, проверяются с помощью Google HAR Analyzer.

Класс, использующий селен, драйвер gecko и har-export-trigger:

class MyWebDriver(object):
    # a inner class to implement custom wait
    class PageIsLoaded(object):
        def __call__(self, driver):
            state = driver.execute_script('return document.readyState;')
            MyWebDriver._LOGGER.debug("checking document state: " + state)
            return state == "complete"

    _FIREFOX_DRIVER = "geckodriver"
    # load HAR_EXPORT_TRIGGER extension
    _HAR_TRIGGER_EXT_PATH = os.path.abspath(
        "har_export_trigger-0.6.1-an+fx_orig.xpi")
    _PROFILE = webdriver.FirefoxProfile()
    _PROFILE.set_preference("devtools.toolbox.selectedTool", "netmonitor")
    _CAP = DesiredCapabilities().FIREFOX
    _OPTIONS = FirefoxOptions()
    # add runtime argument to run with devtools opened
    _OPTIONS.add_argument("-devtools")
    _LOGGER = my_logger.get_custom_logger(os.path.basename(__file__))

    def __init__(self, log_body=False):
        self.browser = None
        self.log_body = log_body

    # return the webdriver instance
    def get_instance(self):
        if self.browser is None:
            self.browser = webdriver.Firefox(capabilities=
                                             MyWebDriver._CAP,
                                             executable_path=
                                             MyWebDriver._FIREFOX_DRIVER,
                                             firefox_options=
                                             MyWebDriver._OPTIONS,
                                             firefox_profile=
                                             MyWebDriver._PROFILE)
            self.browser.install_addon(MyWebDriver._HAR_TRIGGER_EXT_PATH,
                                       temporary=True)
            MyWebDriver._LOGGER.info("Web Driver initialized.")
        return self.browser

    def get_har(self):
        # JSON.stringify has to be called to return as a string
        har_harvest = "myString = HAR.triggerExport().then(" \
                      "harLog => {return JSON.stringify(harLog);});" \
                      "return myString;"
        har_dict = dict()
        har_dict['log'] = json.loads(self.browser.execute_script(har_harvest))
        # remove content body
        if self.log_body is False:
            for entry in har_dict['log']['entries']:
                temp_dict = entry['response']['content']
                try:
                    temp_dict.pop("text")
                except KeyError:
                    pass
        return har_dict

    def quit(self):
        self.browser.quit()
        MyWebDriver._LOGGER.warning("Web Driver closed.")

Подкласс добавляет прокси BrowserMob для вашей справки:

class MyWebDriverWithProxy(MyWebDriver):

    _PROXY_EXECUTABLE = os.path.join(os.getcwd(), "venv", "lib",
                                     "browsermob-proxy-2.1.4", "bin",
                                     "browsermob-proxy")

    def __init__(self, url, log_body=False):
        super().__init__(log_body=log_body)
        self.server = Server(MyWebDriverWithProxy._PROXY_EXECUTABLE)
        self.server.start()
        self.proxy = self.server.create_proxy()
        self.proxy.new_har(url,
                           options={'captureHeaders': True,
                                    'captureContent': self.log_body})
        super()._LOGGER.info("BrowserMob server started")
        super()._PROFILE.set_proxy(self.proxy.selenium_proxy())

    def get_har(self):
        return self.proxy.har

    def quit(self):
        self.browser.quit()
        self.proxy.close()
        MyWebDriver._LOGGER.info("BroswerMob server and Web Driver closed.")
Другие вопросы по тегам