как попасть на URL-адрес битового потока из href-ссылки html
Я использую rvest
R
пакет для очистки PDF-файла с этой веб-страницы, но последняя ссылка отображается (как URL-адрес битового потока - что бы это ни было) после того, как я нажму наexposed url
по имени AC1-96-21-01-2011.pdf
. Заключительный файл pdf спрятан здесь и скрыт от доступа. Это блокирует все попыткиrvest
функция read_html()
поскольку окончательный файл pdf открывается только при нажатии на предыдущую ссылку (на href
). Скопируйте вставкуxml node
это не позволяет мне войти в файл pdf.
<a href="/judgments/handle/123456789/701">Arbitration Case - AC</a>
Окончательный файл находится на этом URL-адресе, который не отображается в href
узел.
http://judgmenthck.kar.nic.in/judgments/bitstream/123456789/563560/2/AC1-96-21-01-2011.pdf
Итак, в качестве резюме, как мне получить доступ к ссылке на файл pdf, используя rvest
чего нет в href
атрибут, как описано выше.
Я пытался искать bitstream
но это приводит меня к чему-то другому.
1 ответ
Я думаю, вы смотрите не на тот узел:
library(rvest)
"http://judgmenthck.kar.nic.in/judgments/handle/123456789/563560" %>%
read_html() %>%
html_nodes(xpath = "//td/a[@target='_blank']") %>%
html_attr("href") %>%
unique() %>%
{grep("[.]pdf", ., value = T)} %>%
paste0("http://judgmenthck.kar.nic.in", .) ->
pdf_url
print(pdf_url)
# [1] "http://judgmenthck.kar.nic.in/judgments/bitstream/123456789/563560/2/AC1-96-21-01-2011.pdf"