Найти все возможные ссылки на веб-сайте / Screen-Web Scraping с Python
Вроде открытый вопрос здесь. Мне нужно было перейти на сайт вакансий и найти тег описания работы и требования к навыкам (с этим я покончил). Я в основном хотел знать, как я ползаю по сайту? Например, перейдите с test.com на test.com/a и так далее....?? По сути, просканируйте страницу.
Это мой код для поиска на странице. Мне нужно найти все возможные такие страницы на сайте и получить ссылку. ЭТО НЕ РАБОТАЕТ. Я просто делаю это на стороне...
import urllib2
import re
html_content = urllib2.urlopen('http://www.ziprecruiter.com/job/Systems- Engineer/b5452eab/?source=customer-cpc-indeed').read()
matchDescription = re.findall('Bachelor', html_content);
matchSkill = re.findall('VMware', html_content);
print matchDescription
print matchSkill
if ( len(matchDescription) and len(matchSkill) )== 0:
print 'I did not find anything'
else:
print 'My string is in the html'
1 ответ
Рассмотреть возможность использования Scrapy
или какой-то другой существующий скребковый каркас. В противном случае вам нужно найти нужные ссылки вручную, используя lxml
или другой анализатор HTML и сканировать их, используя какой-то ручной механизм, основанный на urllib
или что-то подобное и некоторые структуры данных для хранения входных и выходных данных.