Загрузка всех PDF-файлов из результатов поиска Google scholar с помощью wget
Я хотел бы написать простой веб-паук или просто использовать wget
скачать результаты в формате pdf из Google. На самом деле это был бы довольно хитрый способ получить документы для исследования.
Я прочитал следующие страницы на stackru:
Просматривайте веб-сайт с помощью wget и ограничивайте общее количество просканированных ссылок.
Чем веб-пауки отличаются от пауков Wget?
Загрузка всех файлов PDF с веб-сайта
Как загрузить все файлы (кроме HTML) с веб-сайта с помощью wget?
Последняя страница, пожалуй, самая вдохновляющая из всех. Я пытался использовать wget
как предложено на этом.
Таким образом, моя страница результатов поиска Google Golopar не была загружена.
Учитывая, что мой уровень понимания веб-сайтов минимален, что я должен сделать, чтобы это стало возможным? Я действительно понимаю, что написание паука, возможно, очень сложное дело и это проект, который я, возможно, не захочу предпринять. Если это возможно с помощью wget
Это было бы просто потрясающе.
1 ответ
wget -e robots=off -H --user-agent="Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092416 Firefox/3.0.3" -r -l 1 -nd -A pdf http://scholar.google.com/scholar?q=filetype%3Apdf+liquid+films&btnG=&hl=en&as_sdt=0%2C23
Несколько вещей, на которые стоит обратить внимание:
- Использование filetyle:pdf в поисковом запросе
- Один уровень рекурсии
- - PDF только для принятия PDF
- -Н, чтобы охватить хозяев
- -e robots=off, и использование --user-agent обеспечит наилучшие результаты. Google Scholar отклоняет пустой пользовательский агент, а в репозиториях pdf могут быть запрещены роботы.
Ограничение, конечно, заключается в том, что это попадет только на первую страницу результатов. Вы могли бы расширить глубину рекурсии, но это будет расти и длиться вечно. Я бы порекомендовал использовать комбинацию чего-то вроде подпроцессов Beautiful Soup и wget, чтобы вы могли стратегически анализировать и просматривать результаты поиска.