Установка pdftotext в Windows (для использования с пакетом R, tm)
У меня проблемы с использованием пакета R, 'tm' для чтения в файлах.pdf. В частности, я пытаюсь запустить следующий код:
library(tm)
filename = "myfile.pdf"
tmp1 <- readPDF(PdftotextOptions="-layout")
doc <- tmp1(elem=list(uri=filename),language="en",id="id1")
doc[1:15]
... что дает мне ошибку:
Error in readPDF(PdftotextOptions = "-layout") :
unused argument (PdftotextOptions = "-layout")
Я предполагаю, что это связано с тем, что программа pdftotext (часть xpdf, http://www.foolabs.com/xpdf/download.html) не была правильно установлена на моем компьютере, поэтому R не может получить к ней доступ.
Как правильно установить xpdf/pdftotext, чтобы можно было выполнить приведенный выше код R? (Мне известны подобные вопросы, которые уже были опубликованы, но они не решают ту же проблему)
2 ответа
PdftotextOptions
не является параметром readPDF
, readPDF
имеет control
параметр, который ожидает список. Так что правильное использование будет:
if(all(file.exists(Sys.which(c("pdfinfo", "pdftotext"))))) {
tmp1 <- readPDF(control = list(text = "-layout"))
doc <- tmp1(elem=list(uri=filename),language="en",id="id1")
}