Загрузка всех файлов PDF с веб-сайта

Мне нужно сделать приложение для Windows на C#, которое загружает все PDF-файлы с веб-сайта. У меня есть ссылка на сайт, но проблема, с которой я сталкиваюсь, заключается в том, что PDF-файлы не находятся в определенной папке на сайте, а разбросаны по всему.

Мне нужна помощь в поиске всех этих ссылок, чтобы я мог скачать их или любые другие советы, которые могут помочь мне с моей проблемой.

Спасибо всем помочь в продвинутом.

2 ответа

  1. Пролистать все страницы
  2. Найти все URL "*.pdf"
  3. Восстановите их и просто загрузите:)

Пожалуйста, уточните, пытаетесь ли вы получить все PDF-файлы со страницы html или со всего домена?

То, что вы пытаетесь сделать, известно как веб-очистка, есть несколько библиотек, которые могут упростить вашу задачу, одна из них - IronWebScraper, но платная.

Здесь доступен обширный список пакетов NuGet, которые можно использовать для поиска в Интернете.

Другие вопросы по тегам