Почему этот код загружает только данные одной страницы?

Question

Почему этот код загружает только данные одной страницы?

Я пробовал много раз, но это не работает:

import requests
from lxml import html, etree
from selenium import webdriver
import time, json

#how many page do you want to scan
page_numnotint = input("how many page do you want to scan")
page_num = int(page_numnotint)
file_name = 'jd_goods_data.json'


url = 'https://list.jd.com/list.html?cat=1713,3264,3414&page=1&delivery=1&sort=sort_totalsales15_desc&trans=1&JL=4_10_0#J_main'
driver = webdriver.Chrome()
driver.get(url)
base_html = driver.page_source
selctor = etree.HTML(base_html)
date_info = []
name_data, price_data = [], []
jd_goods_data = {}
for q in range(page_num):
    i = int(1)
    while True:
        name_string = '//*[@id="plist"]/ul/li[%d]/div/div[3]/a/em/text()' %(i)
        price_string = '//*[@id="plist"]/ul/li[%d]/div/div[2]/strong[1]/i/text()' %(i)
        if i == 60:
            break
        else:
            i += 1
        name = selctor.xpath(name_string)[0]
        name_data.append(name)
        price = selctor.xpath(price_string)[0]
        price_data.append(price)
        jd_goods_data[name] = price

        print(name_data)
        with open(file_name, 'w') as f:
            json.dump(jd_goods_data, f)
    time.sleep(2)
    driver.find_element_by_xpath('//*[@id="J_bottomPage"]/span[1]/a[10]').click()
    time.sleep(2)

    # for k, v in jd_goods_data.items():
    #     print(k,v)

Я пытаюсь загрузить некоторые детали, но это не работает. Если вы набираете 2 для сканирования, он загружает только одну страницу, но дважды!

0

python python-3.x pyspider

Источник

user7976180 07 май '17 в 12:41

1 ответ

Решение

Другие вопросы по тегам python python-3.x pyspider

user4194079 07 май '17 в 13:32 2017-05-07 13:32 · Accepted Answer · 2017-05-07 13:32

Хорошо, вы определяете q но вы на самом деле не используете его как таковой. В этом случае принято называть эту неиспользуемую переменную _, Я имею в виду, вместо того, чтобы делать

for q in range(page_num):

ты должен сделать

for _ in range(page_num):

Таким образом, другие программисты будут непосредственно знать, что вы не используете qи только хотите, чтобы ваша операция повторялась.

Это означает, что (по некоторым причинам) линия driver.find_element_by_xpath('//*[@id="J_bottomPage"]/span[1]/a[10]').click() не выполняется правильно. Наверняка есть способ заставить это работать. Но в вашем случае я эвристически вижу, что ваш URL содержит параметр, имя которого page, Я рекомендую вам использовать его вместо. Что, таким образом, приводит к фактическому использованию переменной q как таковой., а именно:

import requests
from lxml import html,etree
from selenium import webdriver
import time, json

#how many page do you want to scan
page_numnotint = input("how many page do you want to scan")
page_num = int(page_numnotint)
file_name = 'jd_goods_data.json'

driver = webdriver.Chrome()
date_info = []
name_data, price_data = [], []
jd_goods_data = {}
for q in range(page_num):
    url = 'https://list.jd.com/list.html?cat=1713,3264,3414&page={page}&delivery=1&sort=sort_totalsales15_desc&trans=1&JL=4_10_0#J_main'.format(page=q)
    driver.get(url)
    base_html = driver.page_source
    selctor = etree.HTML(base_html)
    i = 1
    while True:
        name_string = '//*[@id="plist"]/ul/li[%d]/div/div[3]/a/em/text()' %(i)
        price_string = '//*[@id="plist"]/ul/li[%d]/div/div[2]/strong[1]/i/text()' %(i)
        if i == 60:
            break
        else:
            i += 1
        name = selctor.xpath(name_string)[0]
        name_data.append(name)
        price = selctor.xpath(price_string)[0]
        price_data.append(price)
        jd_goods_data[name] = price

        print(name_data)

with open(file_name, 'w') as f:
    json.dump(jd_goods_data, f)

driver.quit()