Использование Selenium и Python для очистки веб-сайта Morningstar. Selenium не загружает всю веб-страницу

Question

Использование Selenium и Python для очистки веб-сайта Morningstar. Selenium не загружает всю веб-страницу

Вот мой код:

from selenium import webdriver
import pandas as pd
from lxml import etree

url = 'https://www.morningstar.com/stocks/xbsp/UGPA3/quote'
browser = webdriver.Chrome()
browser.get(url)
htmlpage = browser.page_source

doc = etree.HTML(htmlpage)
cap = doc.xpath(
    '/html/body/div[1]/div/div/div[3]/main/div[2]/div/div/div[1]/sal-components/section/div/div/div[1]/div/div[2]/div/div/div/div[2]/ul/li[7]/div/div[2]/text()')

print(cap)

Я пытаюсь удалить рыночную капитализацию с веб-страницы.

После записи переменной htmlpage в файл я обнаружил, что проблема в том, что она не загружает всю страницу. Он загружает 2228 КБ, в то время как мой браузер загружает файл.html размером 2664 КБ плюс папку, в которой нет необходимости. Если я вручную сохраню страницу в моем браузере и использую ее содержимое в качестве входных данных для etree.HTML(), она будет работать, но я хочу автоматизировать.

2

python selenium web-scraping xpath morningstar

Источник

user12096457 27 янв '20 в 00:27

1 ответ

Решение

Другие вопросы по тегам python selenium web-scraping xpath morningstar

user10262890 27 янв '20 в 13:47 2020-01-27 13:47 · Accepted Answer · 2020-01-27 13:47

Попробуй это

    from selenium import webdriver
    from selenium.webdriver.support import expected_conditions as EC
    from selenium.webdriver.support.ui import WebDriverWait
    from selenium.webdriver.common.by import By
    import time

    CHROME_DRIVER_PATH = "/usr/local/bin/chromedriver"

    url = 'https://www.morningstar.com/stocks/xbsp/UGPA3/quote'
    browser = webdriver.Chrome(executable_path=CHROME_DRIVER_PATH)

    browser.get(url)

    time.sleep(2)

    # get cap  value from page source and wait for element is present
    cap = WebDriverWait(browser, 10).until(
        EC.element_to_be_clickable((By.XPATH,
                                    '//*[@id="__layout"]/div/div[3]/main/div[2]/div/div/div[1]/sal-components/section/div/div/div[1]/div/div[2]/div/div/div/div[2]/ul/li[7]/div/div[2]')))
    cap_value = cap.text
    print(cap_value)