Как очистить скачанный PDF-файл с помощью R

Question

Как очистить скачанный PDF-файл с помощью R

Недавно я начал изучать практику (и программирование в целом) и наткнулся на просмотр PDF. Каждый раз, когда я пытаюсь прочитать отсканированный PDF с помощью R, я не могу заставить его работать. Я пытался использовать функцию file.choose() безрезультатно. Нужно ли мне сменить каталог, или как мне получить pdf из моих файлов в R? Код выглядит примерно так:

    > library(pdftools)
    > text=pdf_text("C:/Users/myname/Documents/renewalscan.pdf")
    > text
    [1] ""

Кроме того, использование pdftables приводит меня сюда:

    > library(pdftables)
    > convert_pdf("C:/Users/myname/Documents/renewalscan.pdf","my.csv")
    Error in get_content(input_file, format, api_key) : 
    Bad Request (HTTP 400).

2

r pdf-scraping

Источник

user9910967 07 июн '18 в 20:33

1 ответ

Другие вопросы по тегам r pdf-scraping

user8190278 07 июн '18 в 20:52 2018-06-07 20:52 · Answer 1 · 2018-06-07 20:52

Вы должны использовать пакеты pdftools а также pdftables,

Если вы пытаетесь прочитать текст внутри PDF, то используйте pdf_text() функция. Внутри идет путь (на вашем компьютере или в Интернете) к PDF. Например

tt = pdf_text("C:/Users/Smith/Documents/my_file.pdf")

Было бы неплохо, если бы вы были более конкретны, а также привели нам воспроизводимый пример.

user6631551 29 мар '19 в 07:33 2019-03-29 07:33 · Answer 2 · 2019-03-29 07:33

Чтобы использовать пакет PDFTables R, вам нужно выполнить следующую команду:

convert_pdf('test/index.pdf', output_file = NULL, format = "xlsx-single", message = TRUE, api_key = "insert_API_key")

0

Источник

user6631551 29 мар '19 в 07:33

user6713793 24 сен '19 в 18:51 2019-09-24 18:51 · Answer 3 · 2019-09-24 18:51

Если вы хотите получить табличные данные, вы можете попробовать tabulizer. Вот полное руководство по коду: https://www.business-science.io/code-tools/2019/09/23/tabulizer-pdf-scraping.html

В принципе, вы можете использовать этот код из учебника:

library(tabulizer)
extract_tables(
    file   = "2019-09-23-tabulizer/endangered_species.pdf", 
    method = "decide", 
    output = "data.frame")