Scrapy: возникают проблемы при сканировании страницы ASPX
Я пытаюсь сканировать страницу.aspx, но она перенаправляет меня на страницу, которая не существует. Чтобы решить эту проблему, я попытался установить "dont_merge_cookies": True и "dont_redirect": True и перезаписать мои start_requests, но теперь он выдает мне ошибку: "Объект Response" не имеет атрибута "body_as_unicode" и моего типа класса ответа это "scrapy.http.response.Response".
Вот мой код:
class Inon_Spider(BaseSpider):
name = 'Inon'
allowed_domains = ['www.shop.inonit.in']
start_urls = ['http://www.shop.inonit.in/Products/Inonit-Men-Jackets/QUIRK-BOX/Toy-Factory-Jacket---Soldiers/pid-1177471.aspx?Rfs=&pgctl=713619&cid=CU00049295']
#redirects to http://www.shop.inonit.in/Products/Inonit-Men-Jackets/QUIRK-BOX/Toy-Factory-Jacket---Soldiers/1177471
def start_requests(self):
start_urls = ['http://www.shop.inonit.in/Products/Inonit-Men-Jackets/QUIRK-BOX/Toy-Factory-Jacket---Soldiers/pid-1177471.aspx?Rfs=&pgctl=713619&cid=CU00049295']
for i in start_urls:
yield Request(i, meta = {
'dont_merge_cookies': True,
'dont_redirect': True,
'handle_httpstatus_list': [302]
},callback=self.parse)
def parse(self, response):
print "Response %s" %response.__class__
resp = TextResponse
item = DealspiderItem()
hxs = HtmlXPathSelector(resp)
title = hxs.select('//div[@class="aboutproduct"]/div[@class="container9"]/div[@class="ctl_aboutbrand"]/h1/text()').extract()
price = hxs.select('//span[@id="ctl00_ContentPlaceHolder1_Price_ctl00_spnWebPrice"]/span[@class="offer"]/span[@id="ctl00_ContentPlaceHolder1_Price_ctl00_lblOfferPrice"]/text()').extract()
prc = price[0].replace("Rs. ","")
description = []
item['price'] = prc
item['title'] = title
item['description'] = description
item['url'] = response.url
return item