Python Link Scraper

    focus_Search = raw_input("Focus Search ") 
    url = "https://www.google.com/search?q=" 
    res = requests.get(url + focus_Search) 
    print("You Just Searched") 
    res_String = res.text 
    #Now I must get ALL the sections of code that start with "<a href" and end with "/a>"

Я пытаюсь очистить все ссылки с веб-страницы поиска Google. Я мог бы извлечь каждую ссылку по одной, но я уверен, что есть лучший способ сделать это.

1 ответ

Это создает список всех ссылок на странице поиска с некоторым вашим кодом, не попадая в BeautifulSoup

import requests
import lxml.html

focus_Search = input("Focus Search ") 
url = "https://www.google.com/search?q=" 
#focus_Search
res = requests.get(url + focus_Search).content 
# res

dom = lxml.html.fromstring(res)
links = [x for x in dom.xpath('//a/@href')] # Borrows from cheekybastard in link below
# http://stackru.com/questions/1080411/retrieve-links-from-web-page-using-python-and-beautifulsoup
links
Другие вопросы по тегам