Scraperwiki scrape query: использование lxml для извлечения ссылок

Question

Scraperwiki scrape query: использование lxml для извлечения ссылок

Я подозреваю, что это тривиальный запрос, но надеюсь, что кто-то может помочь мне с запросом, который я получил, используя lxml в скребке, который я пытаюсь построить.

https://scraperwiki.com/scrapers/thisisscraper/

Я работаю построчно через урок 3 и до сих пор пытаюсь извлечь ссылку на следующую страницу. Я могу использовать cssselect для идентификации ссылки, но я не могу понять, как изолировать только атрибут href, а не весь тег привязки.

Кто-нибудь может помочь?

def scrape_and_look_for_next_link(url):
    html = scraperwiki.scrape(url)
    print html
    root = lxml.html.fromstring(html) #turn the HTML into lxml object
    scrape_page(root)
    next_link = root.cssselect('ol.pagination li a')[-1]

    attribute = lxml.html.tostring(next_link)
    attribute = lxml.html.fromstring(attribute)

    #works up until this point
    attribute = attribute.xpath('/@href')
    attribute = lxml.etree.tostring(attribute)
    print attribute

0

python-2.7 lxml scraper scraperwiki

Источник

user386861 09 июл '12 в 17:59

2 ответа

Решение

link = link.attrib['href']

должно сработать

1

Источник

user1293932 22 авг '12 в 17:30

Другие вопросы по тегам python-2.7 lxml scraper scraperwiki

user1162888 28 июл '12 в 08:44 2012-07-28 08:44 · Accepted Answer · 2012-07-28 08:44

Селекторы CSS могут выбирать элементы, имеющие атрибут href, например, с помощью. a[href] но они не могут извлечь значение атрибута самостоятельно.

Когда у вас есть элемент из cssselect, вы можете использовать next_link.get('href') чтобы получить значение атрибута.