Очистить веб-страницу <ul> <li> (Python)

Question

Очистить веб-страницу <ul> <li> (Python)

Вопрос:

Есть веб-сайт https://au.pcpartpicker.com/products/cpu/overall-list/ со списком <li> под <ul> каждый элемент в списке содержит <div> с названием класса в этом классе есть еще 2 <div> У элементов первый пример текста 3,4 ГГц 6-Core (Pinnacle Ridge) Я хочу удалить весь текст, не заключенный в скобки, чтобы получить Pinnacle Ridge. После того, как список очищен, я хочу перейти на следующую страницу, изменив # page =.

Код:

Я не слишком уверен, есть только фрагменты, но вот оно:

from request_html импорт сеанса HTMLSession = HTMLSession()

r = session.get('https://au.pcpartpicker.com/product/cpu/overall-list/#page=' + page)

table = r.html.find('.ul')

//not sure find each <li> get first <div>

junk, name = div.split('(')

name.replace("(", "")

name.replace(")", "")

Ожидаемый результат:

Я хочу перебирать каждую страницу, пока не останется ни одного, чтобы найти каждый список и получить имя, которое не нужно сохранять, так как у меня есть код, чтобы сохранить его при его создании.

Если вам нужна дополнительная информация, пожалуйста, дайте мне знать

Спасибо

2

python html python-3.x beautifulsoup python-requests-html

Источник

user9389353 28 дек '18 в 23:56

1 ответ

Решение

Другие вопросы по тегам python html python-3.x beautifulsoup python-requests-html

user7326738 29 дек '18 в 00:27 2018-12-29 00:27 · Accepted Answer · 2018-12-29 00:27

Сайт динамичный, поэтому вам придется использовать selenium для получения желаемых результатов:

from bs4 import BeautifulSoup as soup
from selenium import webdriver
import time, re
d = webdriver.Chrome('/path/to/chromdriver')
d.get('https://au.pcpartpicker.com/products/cpu/overall-list/#page=1')
def cpus(_source):
  result = soup(_source, 'html.parser').find('ul', {'id':'category_content'}).find_all('li')
  _titles = list(filter(None, [(lambda x:'' if x is None else x.text)(i.find('div', {'class':'title'})) for i in result]))
  data = [list(filter(None, [re.findall('(?<=\().*?(?=\))', c.text) for c in i.find_all('div')])) for i in result]
  return _titles, [a for *_, [a] in filter(None, data)]


_titles, _cpus = cpus(d.page_source))
conn.executemany("INSERT INTO cpu (name, family) VALUES (?, ?)", list(zip(_titles, _cpus)))
_last_page = soup(d.page_source, 'html.parser').find_all('a', {'href':re.compile('#page\=\d+')})[-1].text
for i in range(2, int(_last_page)+1):
   d.get(f'https://au.pcpartpicker.com/products/cpu/overall-list/#page={i}') 
   time.sleep(3)
   _titles, _cpus = cpus(d.page_source))
   conn.executemany("INSERT INTO cpu (name, family) VALUES (?, ?)", list(zip(_titles, _cpus)))