Как скачать связанные PDF-файлы с сайта?

Question

Как скачать связанные PDF-файлы с сайта?

Я хочу скачать сотни PDF-документов с сайта. Я пробовал такие инструменты, как SiteSucker и аналогичные, но он не работает, потому что, кажется, существует некоторое "разделение" между файлами и страницей, которая ссылается на них. Я не знаю, как описать это лучше, так как я не очень разбираюсь в программировании веб-сайтов или поиске. Любой совет, что это может быть и как можно обойти это?

В частности, я пытаюсь загрузить PDF-файлы резолюций ООН, которые хранятся на таких страницах, как эта: http://www.un.org/depts/dhl/resguide/r53_en.shtml

Похоже, что на сайте ООН есть встроенная "поисковая функция", которая делает фиктивные соскобы, как и SiteSucker, не такими, как задумывалось.

Есть ли другие инструменты, которые я могу использовать?

-1

pdf-scraping

Источник

user4030359 11 сен '14 в 09:56

1 ответ

Другие вопросы по тегам pdf-scraping

user4026111 11 сен '14 в 10:12 2014-09-11 10:12 · Answer 1 · 2014-09-11 10:12

Нажав на ссылку, которую вы упомянули, вы перенаправляетесь на страницу, состоящую из двух кадров (html). Первый - это "заголовок", а второй загружает страницу, чтобы сгенерировать файл PDF и вставить его внутрь. URL-адрес файла PDF трудно угадать. Я не знаю ни одного бесплатного инструмента, который мог бы удалить этот тип страниц.

Вот пример URL-адреса во втором фрейме, который заканчивается в PDF-файле:

http://daccess-dds-ny.un.org/doc/UNDOC/GEN/N99/774/43/PDF/N9977443.pdf?OpenElement