Как очистить скачанный PDF-файл с помощью R
Недавно я начал изучать практику (и программирование в целом) и наткнулся на просмотр PDF. Каждый раз, когда я пытаюсь прочитать отсканированный PDF с помощью R, я не могу заставить его работать. Я пытался использовать функцию file.choose() безрезультатно. Нужно ли мне сменить каталог, или как мне получить pdf из моих файлов в R? Код выглядит примерно так:
> library(pdftools)
> text=pdf_text("C:/Users/myname/Documents/renewalscan.pdf")
> text
[1] ""
Кроме того, использование pdftables приводит меня сюда:
> library(pdftables)
> convert_pdf("C:/Users/myname/Documents/renewalscan.pdf","my.csv")
Error in get_content(input_file, format, api_key) :
Bad Request (HTTP 400).
1 ответ
Вы должны использовать пакеты pdftools
а также pdftables
,
Если вы пытаетесь прочитать текст внутри PDF, то используйте pdf_text()
функция. Внутри идет путь (на вашем компьютере или в Интернете) к PDF. Например
tt = pdf_text("C:/Users/Smith/Documents/my_file.pdf")
Было бы неплохо, если бы вы были более конкретны, а также привели нам воспроизводимый пример.
Чтобы использовать пакет PDFTables R, вам нужно выполнить следующую команду:
convert_pdf('test/index.pdf', output_file = NULL, format = "xlsx-single", message = TRUE, api_key = "insert_API_key")
Если вы хотите получить табличные данные, вы можете попробовать tabulizer
. Вот полное руководство по коду: https://www.business-science.io/code-tools/2019/09/23/tabulizer-pdf-scraping.html
В принципе, вы можете использовать этот код из учебника:
library(tabulizer)
extract_tables(
file = "2019-09-23-tabulizer/endangered_species.pdf",
method = "decide",
output = "data.frame")