Не в состоянии очистить изображения с pyspider и phantomjs
Теперь я хочу скрести все изображения предметов (iphone) на этой веб-странице. Сначала я извлекаю все ссылки изображения, а затем отправляю запрос src по одной и загружаю их в папку "/phone/". Вот мой код:
from pyspider.libs.base_handler import *
class Handler(BaseHandler):
crawl_config = {
}
@every(minutes=24 * 60)
def on_start(self):
print 'hi'
self.crawl('https://s.taobao.com/search?q=iphone&imgfile=&ie=utf8', callback=self.index_page, fetch_type='js')
#@config(age=10 * 24 * 60 * 60)
def index_page(self, response):
items = response.doc('.item').items()
for item in items:
imgurl = item('.J_ItemPic img').attr('.src')
if imgurl:
filename = item('.J_ItemPic.img').attr('.id')
self.crawl(imgurl, callback=self.scrape_photo, save={'filename': filename})
def save_photo(self, content, filename):
with open('phone/'+filename, 'wb') as f:
f.write(content)
def scrape_photo(self, response):
content = response.content
filename = response.save['filename']+'.jpg'
self.save_photo(content, filename)
Это довольно интуитивно и просто. Но когда я запускаю код, ничего не происходит, и я просто получаю сообщения журнала в терминале:
[I 160602 18:57:42 scheduler:664] restart task sk:on_start data:,on_start
[I 160602 18:57:42 scheduler:771] select sk:on_start data:,on_start
[I 160602 18:57:42 tornado_fetcher:178] [200] sk:on_start data:,on_start 0s
[I 160602 18:57:42 processor:199] process sk:on_start data:,on_start -> [200] len:8 -> result:None fol:1 msg:0 err:None
[I 160602 18:57:42 scheduler:712] task done sk:on_start data:,on_start
Я почти без ума от этой проблемы. Не могли бы вы сказать мне, в чем проблема и как я могу это исправить? Заранее спасибо!
1 ответ
Вы когда-нибудь сканировали ссылку " https://s.taobao.com/search?q=iphone&imgfile=&ie=utf8" раньше?
pyspider по умолчанию отбрасывает просканированные ссылки (ваши комментарии @config(age=10 * 24 * 60 * 60)
значит никогда не переползай)
Если вы хотите перезапустить проект удержания, http://docs.pyspider.org/en/latest/apis/self.crawl/ поможет.