Python Link Scraper
focus_Search = raw_input("Focus Search ")
url = "https://www.google.com/search?q="
res = requests.get(url + focus_Search)
print("You Just Searched")
res_String = res.text
#Now I must get ALL the sections of code that start with "<a href" and end with "/a>"
Я пытаюсь очистить все ссылки с веб-страницы поиска Google. Я мог бы извлечь каждую ссылку по одной, но я уверен, что есть лучший способ сделать это.
1 ответ
Это создает список всех ссылок на странице поиска с некоторым вашим кодом, не попадая в BeautifulSoup
import requests
import lxml.html
focus_Search = input("Focus Search ")
url = "https://www.google.com/search?q="
#focus_Search
res = requests.get(url + focus_Search).content
# res
dom = lxml.html.fromstring(res)
links = [x for x in dom.xpath('//a/@href')] # Borrows from cheekybastard in link below
# http://stackru.com/questions/1080411/retrieve-links-from-web-page-using-python-and-beautifulsoup
links