Селен под управлением Chrome не ведет себя так же, как в реальном Chrome
Я использую Selenium для рендеринга веб-страницы, а затем занимаюсь извлечением контента. Однако я обнаружил, что возврат селена отличается от того, что я получаю, используя Chrome DevTools.
Код Python, который я использую, прост:
driver = webdriver.Chrome() #.PhantomJS()
driver.get(url)
content = driver.page_source.encode('utf-8')
По сути, я обнаружил, что поле, на которое я смотрю, большую часть времени не показывается в результатах Selenium. Иногда он работает, но в большинстве случаев он просто не отображает то, что делает настоящий браузер Chrome. Я использую Mackbook Pro. Благодаря ~
1 ответ
page_source
дает только то, что вы получите, если щелкнуть правой кнопкой мыши и нажать View Page Source
что и было оригинальным документом. Все, что загружается динамически через JavaScript и т. Д., Не будет в этом. Если вы хотите все это в селене, вы можете сделать:
driver.find_element_by_css_selector('body').get_attribute('outerHTML')