Установка pdftotext в Windows (для использования с пакетом R, tm)

У меня проблемы с использованием пакета R, 'tm' для чтения в файлах.pdf. В частности, я пытаюсь запустить следующий код:

library(tm)
filename = "myfile.pdf"

tmp1 <- readPDF(PdftotextOptions="-layout")
doc <- tmp1(elem=list(uri=filename),language="en",id="id1")
doc[1:15]

... что дает мне ошибку:

Error in readPDF(PdftotextOptions = "-layout") : 
  unused argument (PdftotextOptions = "-layout")

Я предполагаю, что это связано с тем, что программа pdftotext (часть xpdf, http://www.foolabs.com/xpdf/download.html) не была правильно установлена ​​на моем компьютере, поэтому R не может получить к ней доступ.

Как правильно установить xpdf/pdftotext, чтобы можно было выполнить приведенный выше код R? (Мне известны подобные вопросы, которые уже были опубликованы, но они не решают ту же проблему)

2 ответа

PdftotextOptions не является параметром readPDF, readPDF имеет control параметр, который ожидает список. Так что правильное использование будет:

if(all(file.exists(Sys.which(c("pdfinfo", "pdftotext"))))) { 
  tmp1 <- readPDF(control = list(text = "-layout"))
  doc <- tmp1(elem=list(uri=filename),language="en",id="id1")
}

Задавать

setwd('C:/xpdf/bin64')                 

Меня устраивает.

Другие вопросы по тегам