Вытащить данные с kickstarter.com
Я пишу небольшой скрипт для извлечения данных обо всех проектах с kickstarter.com - пока он работает просто отлично, однако в поисковой системе самого сайта я могу получить только 200 страниц по 20 проектов каждый. Кто-нибудь встречал этот или подобный вопрос раньше? Я использую открытый исходный код, вот источник:
while True:
r = requests.get('https://www.kickstarter.com/discover/advanced.json?sort=newest&seed=2478857&page=' + str(page))
#print r.status_code
if r.status_code!=200:
break
data = r.json()
print len(data["projects"])
total+=len(data["projects"])
for index in range(len(data["projects"])):
#print "%s,%f,%s,%f" % (data["projects"][index]["name"], data["projects"][index]["goal"], data["projects"][index]["currency"], data["projects"][index]["pledged"])
csv_output.write("\"%s\",%s,%.0f,%s,%.2f,%d,%s,%s,%s\n" % (data["projects"][index]["name"].encode('ascii', 'ignore'),
data["projects"][index]["category"]["slug"].split("/")[0],
data["projects"][index]["goal"],
data["projects"][index]["currency"],
data["projects"][index]["pledged"],
data["projects"][index]["backers_count"],
str(datetime.datetime.fromtimestamp(data["projects"][index]["created_at"])),
str(datetime.datetime.fromtimestamp(data["projects"][index]["launched_at"])),
str(datetime.datetime.fromtimestamp(data["projects"][index]["deadline"]))))
page+=1
print total
РЕДАКТИРОВАТЬ 1: На 201-й странице я получаю 404 код ответа.