индекс вне пределов. Извлечение PDF

Question

индекс вне пределов. Извлечение PDF

Я извлекаю текст из PDF. Удаление знаков препинания и просмотр ключевых повторяющихся слов и того, как часто они появляются.

library(pdftools)
library(tm)

setwd("S:/Shared Folders/Impact Investing/Investment/Scripts/PDF")

files <- list.files(pattern = "pdf$")
opinions <- lapply(files, pdf_text)

corp <- Corpus(URISource(files),
           readerControl = list(reader = readPDF))

opinions.tdm <- TermDocumentMatrix(corp, 
        control = 
            list(removePunctuation = TRUE,
            stopwords = TRUE,
            tolower = TRUE,
            stemming = TRUE,
            removeNumbers = TRUE,
            bounds = list(global = c(3, Inf)))) 

inspect(opinions.tdm[1:10,])

Я получаю сообщение об ошибке:

Ошибка в [.simple_triplet_matrix(мнения.tdm, 1:10,): индекс вне пределов

Мой opinions.tdm имеет следующие характеристики:

Список мнений.tdm длиной 6. целое число [1]. ncol [1]. список dimnames [2]. атрибуты [3]

2

r pdftools

Источник

user10964511 26 сен '19 в 10:05

0 ответов

Другие вопросы по тегам r pdftools