как попасть на URL-адрес битового потока из href-ссылки html

Я использую rvest Rпакет для очистки PDF-файла с этой веб-страницы, но последняя ссылка отображается (как URL-адрес битового потока - что бы это ни было) после того, как я нажму наexposed url по имени AC1-96-21-01-2011.pdf. Заключительный файл pdf спрятан здесь и скрыт от доступа. Это блокирует все попыткиrvest функция read_html() поскольку окончательный файл pdf открывается только при нажатии на предыдущую ссылку (на href). Скопируйте вставкуxml node это не позволяет мне войти в файл pdf.

<a href="/judgments/handle/123456789/701">Arbitration Case - AC</a>

Окончательный файл находится на этом URL-адресе, который не отображается в hrefузел. http://judgmenthck.kar.nic.in/judgments/bitstream/123456789/563560/2/AC1-96-21-01-2011.pdf

Итак, в качестве резюме, как мне получить доступ к ссылке на файл pdf, используя rvest чего нет в href атрибут, как описано выше.

Я пытался искать bitstream но это приводит меня к чему-то другому.

1 ответ

Решение

Я думаю, вы смотрите не на тот узел:

library(rvest)

"http://judgmenthck.kar.nic.in/judgments/handle/123456789/563560" %>%
read_html()                                                       %>%
html_nodes(xpath = "//td/a[@target='_blank']")                    %>%
html_attr("href")                                                 %>% 
unique()                                                          %>% 
{grep("[.]pdf", ., value = T)}                                    %>%
paste0("http://judgmenthck.kar.nic.in", .)                         ->
pdf_url

print(pdf_url)
# [1] "http://judgmenthck.kar.nic.in/judgments/bitstream/123456789/563560/2/AC1-96-21-01-2011.pdf"
Другие вопросы по тегам