Загрузка всех PDF-файлов из результатов поиска Google scholar с помощью wget

Я хотел бы написать простой веб-паук или просто использовать wget скачать результаты в формате pdf из Google. На самом деле это был бы довольно хитрый способ получить документы для исследования.

Я прочитал следующие страницы на stackru:

Просматривайте веб-сайт с помощью wget и ограничивайте общее количество просканированных ссылок.

Чем веб-пауки отличаются от пауков Wget?

Загрузка всех файлов PDF с веб-сайта

Как загрузить все файлы (кроме HTML) с веб-сайта с помощью wget?

Последняя страница, пожалуй, самая вдохновляющая из всех. Я пытался использовать wget как предложено на этом.

Таким образом, моя страница результатов поиска Google Golopar не была загружена.

Учитывая, что мой уровень понимания веб-сайтов минимален, что я должен сделать, чтобы это стало возможным? Я действительно понимаю, что написание паука, возможно, очень сложное дело и это проект, который я, возможно, не захочу предпринять. Если это возможно с помощью wgetЭто было бы просто потрясающе.

1 ответ

Решение
wget -e robots=off -H --user-agent="Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092416 Firefox/3.0.3" -r -l 1 -nd -A pdf http://scholar.google.com/scholar?q=filetype%3Apdf+liquid+films&btnG=&hl=en&as_sdt=0%2C23

Несколько вещей, на которые стоит обратить внимание:

  1. Использование filetyle:pdf в поисковом запросе
  2. Один уровень рекурсии
  3. - PDF только для принятия PDF
  4. -Н, чтобы охватить хозяев
  5. -e robots=off, и использование --user-agent обеспечит наилучшие результаты. Google Scholar отклоняет пустой пользовательский агент, а в репозиториях pdf могут быть запрещены роботы.

Ограничение, конечно, заключается в том, что это попадет только на первую страницу результатов. Вы могли бы расширить глубину рекурсии, но это будет расти и длиться вечно. Я бы порекомендовал использовать комбинацию чего-то вроде подпроцессов Beautiful Soup и wget, чтобы вы могли стратегически анализировать и просматривать результаты поиска.

Другие вопросы по тегам