Не получается получить правильные ссылки из результатов поиска Google с помощью mechanize и Beautifulsoup

Question

Не получается получить правильные ссылки из результатов поиска Google с помощью mechanize и Beautifulsoup

Я использую следующий фрагмент, чтобы получить ссылки из результатов поиска Google для "ключевого слова", которое я даю.

import mechanize
from bs4 import BeautifulSoup
import re


def googlesearch():
    br = mechanize.Browser()
    br.set_handle_robots(False)
    br.set_handle_equiv(False)
    br.addheaders = [('User-agent', 'Mozilla/5.0')] 
    br.open('http://www.google.com/')   

    # do the query
    br.select_form(name='f')   
    br.form['q'] = 'scrapy' # query
    data = br.submit()
    soup = BeautifulSoup(data.read())
    for a in soup.find_all('a', href=True):
        print "Found the URL:", a['href']
googlesearch()

Так как я разбираю HTML-страницу результатов поиска, чтобы получить ссылки. Она получает все теги "а". Но мне нужно только получить ссылки на результаты. Другое дело, когда вы видите выходные данные атрибута href, это дает что-то как это

Нашел URL: /search? Q =scrapy&hl=en-IN&gbv=1&prmd=ivns&source=lnt&tbs=li:1&sa=X&ei=DT8HU9SlG8bskgWvqIHQAQ&ved=0CBgQpwUoAQ

Но фактическая ссылка в href attitube http://scrapy.org/

Может кто-нибудь указать мне решение для вышеупомянутых двух вопросов, упомянутых выше??

заранее спасибо

3

python python-2.7 web-scraping beautifulsoup mechanize

Источник

user3309963 21 фев '14 в 12:03

3 ответа

Решение

В вашем примере кода вы извлекали все <a> теги из HTML, не только связанные с обычными результатами:

      for a in soup.find_all('a', href=True):
    print "Found the URL:", a['href']

Вы ищете это, чтобы получать ссылки только из обычных результатов:

      # container with needed data: title, link, etc.
for result in soup.select('.tF2Cxc'):
  link = result.select_one('.yuRUbf a')['href']

Код и пример в онлайн-среде IDE:

      from bs4 import BeautifulSoup
import requests, lxml

headers = {
    'User-agent':
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.19582'
}

params = {
  'q': 'minecraft',
  'gl': 'us',
  'hl': 'en',
}

html = requests.get('https://www.google.com/search', headers=headers, params=params)
soup = BeautifulSoup(html.text, 'lxml')

for result in soup.select('.tF2Cxc'):
  link = result.select_one('.yuRUbf a')['href']
  print(link)

---------
'''
https://www.minecraft.net/en-us/
https://classic.minecraft.net/
https://play.google.com/store/apps/details?id=com.mojang.minecraftpe&hl=en_US&gl=US
https://en.wikipedia.org/wiki/Minecraft
'''

В качестве альтернативы вы можете добиться того же, используя API Google Organic Results от SerpApi. Это платный API с бесплатным тарифным планом.

Разница в вашем случае в том, что вам не нужно делать все с нуля, обходить блоки и поддерживать синтаксический анализатор с течением времени.

Код для интеграции для достижения вашей цели:

      import os
from serpapi import GoogleSearch

params = {
  "engine": "google",
  "q": "minecraft",
  "hl": "en",
  "gl": "us",
  "api_key": os.getenv("API_KEY"),
}

search = GoogleSearch(params)
results = search.get_dict()

for result in results["organic_results"]:
  print(result['link'])

---------
'''
https://www.minecraft.net/en-us/
https://classic.minecraft.net/
https://play.google.com/store/apps/details?id=com.mojang.minecraftpe&hl=en_US&gl=US
https://en.wikipedia.org/wiki/Minecraft
'''

Отказ от ответственности, я работаю на SerpApi.

0

Источник

user15164646 22 сен '21 в 15:48

Или вы можете использовать https://code.google.com/p/pygoogle/ который делает то же самое.

И вы можете получить ссылки на результаты, а также.

Фрагмент вывода из примера запроса для 'stackru':

*Found 3940000 results*
[Stack Overflow]
Stack Overflow is a question and answer site for professional and enthusiast 
programmers. It's 100% free, no registration required. Take the 2-minute tour
http://stackru.com/

0

Источник

user1332401 09 мар '14 в 18:16

Другие вопросы по тегам python python-2.7 web-scraping beautifulsoup mechanize

user2225682 03 мар '14 в 19:21 2014-03-03 19:21 · Accepted Answer · 2014-03-03 19:21

Получить только ссылки на результаты

Интересующие вас ссылки находятся внутри h3 теги (с r учебный класс):

<li class="g">
  <h3 class="r">
    <a href="/url?q=http://scrapy.org/&amp;sa=U&amp;ei=XdIUU8DOHo-ElAXuvIHQDQ&amp;ved=0CBwQFjAA&amp;usg=AFQjCNHVtUrLoWJ8XWAROG-a4G8npQWXfQ">
      <b>Scrapy</b> | An open source web scraping framework for Python
    </a>
  </h3>
  ..

Вы можете найти ссылки, используя css selector:

soup.select('.r a')

Получить актуальную ссылку

URL-адреса имеют следующий формат:

/url?q=http://scrapy.org/&sa=U&ei=s9YUU9TZH8zTkQWps4BY&ved=0CBwQFjAA&usg=AFQjCNE-2uiVSl60B9cirnlWz2TMv8KMyQ
     ^^^^^^^^^^^^^^^^^^^^

Фактический URL находится в q параметр.

Чтобы получить всю строку запроса, используйте urlparse.urlparse:

>>> url = '/url?q=http://scrapy.org/&sa=U&ei=s9YUU9TZH8zTkQWps4BY&ved=0CBwQFjAA&usg=AFQjCNE-2uiVSl60B9cirnlWz2TMv8KMyQ'
>>> urlparse.urlparse(url).query
'q=http://scrapy.org/&sa=U&ei=s9YUU9TZH8zTkQWps4BY&ved=0CBwQFjAA&usg=AFQjCNE-2uiVSl60B9cirnlWz2TMv8KMyQ'

Затем используйте urlparse.parse_qs проанализировать строку запроса и извлечь q значение параметра:

>>> urlparse.parse_qs(urlparse.urlparse(url).query)['q']
['http://scrapy.org/']
>>> urlparse.parse_qs(urlparse.urlparse(url).query)['q'][0]
'http://scrapy.org/'

Конечный результат

for a in soup.select('.r a'):
    print urlparse.parse_qs(urlparse.urlparse(a['href']).query)['q'][0]

выход:

http://scrapy.org/
http://doc.scrapy.org/en/latest/intro/tutorial.html
http://doc.scrapy.org/
http://scrapy.org/download/
http://doc.scrapy.org/en/latest/intro/overview.html
http://scrapy.org/doc/
http://scrapy.org/companies/
https://github.com/scrapy/scrapy
http://en.wikipedia.org/wiki/Scrapy
http://www.youtube.com/watch?v=1EFnX1UkXVU
https://pypi.python.org/pypi/Scrapy
http://pypix.com/python/build-website-crawler-based-upon-scrapy/
http://scrapinghub.com/scrapy-cloud