Загрузка всех файлов PDF с веб-сайта
Мне нужно сделать приложение для Windows на C#, которое загружает все PDF-файлы с веб-сайта. У меня есть ссылка на сайт, но проблема, с которой я сталкиваюсь, заключается в том, что PDF-файлы не находятся в определенной папке на сайте, а разбросаны по всему.
Мне нужна помощь в поиске всех этих ссылок, чтобы я мог скачать их или любые другие советы, которые могут помочь мне с моей проблемой.
Спасибо всем помочь в продвинутом.
2 ответа
- Пролистать все страницы
- Найти все URL "*.pdf"
- Восстановите их и просто загрузите:)
Пожалуйста, уточните, пытаетесь ли вы получить все PDF-файлы со страницы html или со всего домена?
То, что вы пытаетесь сделать, известно как веб-очистка, есть несколько библиотек, которые могут упростить вашу задачу, одна из них - IronWebScraper, но платная.
Здесь доступен обширный список пакетов NuGet, которые можно использовать для поиска в Интернете.