Почему тег <from> исчезает при попытке соскоблить с него? Scrapy
Я пытаюсь собрать некоторые данные из Amazon и мне нужно отсортировать книги по количеству рецензий на этой странице:www.amazon.com/s/ref=lp_283155_nr_n_0? Fst=as%3Aoff&rh=n%3A283155%2Cn%3A!1000%2Cn%3A1&bbn=1000&ie=UTF8&qid=1457964444&rnid=1000 Если я анализирую эту страницу со структурой scrapy, каким-то образом тег формы исчезает, поэтому я не могу его почистить, почему это??
мой браузер видит это так:
[1]:
Scrap Framework видит это так: [2]: http://i.imgur.com/TEDILP8.jpg?1
это то, что я вижу, когда открываю страницу с помощью метода scrapy open_in_browser()
это странно, и я понятия не имею, что не так, я ценю вашу помощь
1 ответ
Я попытался воспроизвести вашу ошибку и обнаружил, что оболочка scrapy перенаправляет на другую ссылку, когда открывал URL-адрес выдачи. Когда я просмотрел ответ, это была совершенно другая страница, чем та, которая упоминается в вопросе без form
тег. Это был Debug
код напечатан скрапом:
2016-03-15 13:35:35 [scrapy] DEBUG: Redirecting (301) to <GET http://www.amazon.com/s?ie=UTF8&bbn=1000&page=1&rh=n%3A283155> from <GET http://www.amazon.com/s/ref=lp_283155_nr_n_0?fst=as%3Aoff&rh=n%3A283155%2Cn%3A2Cn%3A1&bbn=1000&ie=UTF8&qid=1457964444&rnid=1000>
Решением этой проблемы является попытка открыть URL с помощью user-agent
, Что-то вроде этого:
scrapy shell -s USER_AGENT='Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.7 (KHTML, like Gecko) Chrome/16.0.912.36 Safari/535.7' "http://www.amazon.com/s/ref=lp_283155_nr_n_0?fst=as%3Aoff&rh=n%3A283155%2Cn%3A2Cn%3A1&bbn=1000&ie=UTF8&qid=1457964444&rnid=1000"