Соскоб Python с использованием элемента проверки или firebug
Когда я прохожу этот учебник по чистке YouTube ( https://www.youtube.com/watch?v=qbEN3boz7_M, мне представили, что вместо соскобления с "общедоступной" страницы, загруженной всеми остальными вещами, есть способ найдите "приватную" страницу, чтобы более эффективно собирать необходимую информацию, используя inspect element / firebug.
google chrome > inspect element > network > XHR
Человек в видео на YouTube использует в качестве примера цену акций и сможет найти "личную" страницу, чтобы быстро и менее интенсивно переписываться на сервер. Хотя, когда я пытался просмотреть сайты, я хотел почистить, например, http://www.rottentomatoes.com/m/grigris/, просматривая элемент inspect (chrome) > Network > XHR >, проверяя URL запроса заголовков. и предварительный просмотр, я не нашел ничего полезного.
Я что-то пропустил? Как я могу убедиться, что сырая или сжатая информация где-то спрятана? Используя страницу Rottentomatoes.com в качестве примера, как я могу определить, есть ли 1) "личная страница", которая дает название и год фильма, и 2) сводная страница (в формате, похожем на csv), которая "хранит" все названия фильмов и год на одной странице?
1 ответ
Вы можете найти только XHR-запросы, если страница динамически загружает данные. В вашем примере единственное, что следует отметить, это URL:
http://www.rottentomatoes.com/api/private/v1.0/users/current/ratings/771355871
Который содержит некоторую информацию о фильме в формате JSON.
{"media":{"type":"movie","id":771355871,"title":"Grigris","url":"http://www.rottentomatoes.com/m/grigris/","year":2014,"mpaa":"Unrated","runtime":"1 hr. 40 min.","synopsis":"Despite a bum leg, 25-year-old Grigris has hopes of becoming a professional dancer, making some extra cash putting his killer moves to good use on the...","thumbnail":"http://content6.flixster.com/movie/11/17/21/11172196_mob.jpg","cast":[{"name":"Souleymane Démé","id":"771446344"},{"name":"Anaïs Monory","id":"771446153"}]}}
Убедитесь, что у вас открыты инструменты разработчика Chrome при загрузке сайта. Если нет, инструменты разработчика не фиксируют никаких запросов. Вы можете открыть их и обновить страницу, затем вы должны увидеть их под фильтром XHR.