Как получить все результаты с веб-страницы, как показывает браузер, когда прокручивает страницу вниз
Я пытаюсь получить все результаты видео с веб-страницы:
$ curl -qs https://ok.ru/video/c335170 | pup '.video-card_lk attr{href}' | wc -l
24
Другой метод возвращает тот же результат:
$ wget --config="/dev/null" -qO- https://ok.ru/video/c335170 | grep -oP '/video/\d+' | sort -u | wc -l
24
РЕДАКТИРОВАТЬ 1: прокрутить веб-страницу до конца с помощью Firefox и сохранить его как c335170.html
и я получаю тот же результат:
$ cat c335170.html | grep -oP '/video/\d+' | sort -u | wc -l
24
Однако в веб-браузере после прокрутки до конца он показывает 81 результат.
Тот же пб. с YouTube и кнопкой "Загрузить еще", которая скрывает результаты от клиентов консоли http:
$ curl -qs https://www.youtube.com/user/impacttvouaga/videos | grep -oP "/watch\?v=[\w-]+" | uniq | wc -l
21
РЕДАКТИРОВАТЬ 2: я только что сохранил эту веб-страницу с Firefox как "веб-страница, только HTML" в RMC_IMPACTV__YouTube.html
а потом:
$ cat RMC_IMPACTV__YouTube.html | grep -oP "/watch\?v=[\w-]+" | uniq | wc -l
21
Как я могу иметь удаленный HTTP-сервер, чтобы дать мне все результаты?
0 ответов
Чтобы загрузить расширенный HTML-код, я установил Save Page WE, а для прокрутки вниз установил Scroll it!