Найти все возможные ссылки на веб-сайте / Screen-Web Scraping с Python

Вроде открытый вопрос здесь. Мне нужно было перейти на сайт вакансий и найти тег описания работы и требования к навыкам (с этим я покончил). Я в основном хотел знать, как я ползаю по сайту? Например, перейдите с test.com на test.com/a и так далее....?? По сути, просканируйте страницу.

Это мой код для поиска на странице. Мне нужно найти все возможные такие страницы на сайте и получить ссылку. ЭТО НЕ РАБОТАЕТ. Я просто делаю это на стороне...

import urllib2
import re

html_content = urllib2.urlopen('http://www.ziprecruiter.com/job/Systems-     Engineer/b5452eab/?source=customer-cpc-indeed').read()

matchDescription = re.findall('Bachelor', html_content);
matchSkill = re.findall('VMware', html_content);


print matchDescription
print matchSkill

if ( len(matchDescription) and len(matchSkill) )== 0: 
   print 'I did not find anything'
else:
   print 'My string is in the html'

1 ответ

Решение

Рассмотреть возможность использования Scrapy или какой-то другой существующий скребковый каркас. В противном случае вам нужно найти нужные ссылки вручную, используя lxml или другой анализатор HTML и сканировать их, используя какой-то ручной механизм, основанный на urllib или что-то подобное и некоторые структуры данных для хранения входных и выходных данных.

Другие вопросы по тегам