индекс вне пределов. Извлечение PDF
Я извлекаю текст из PDF. Удаление знаков препинания и просмотр ключевых повторяющихся слов и того, как часто они появляются.
library(pdftools)
library(tm)
setwd("S:/Shared Folders/Impact Investing/Investment/Scripts/PDF")
files <- list.files(pattern = "pdf$")
opinions <- lapply(files, pdf_text)
corp <- Corpus(URISource(files),
readerControl = list(reader = readPDF))
opinions.tdm <- TermDocumentMatrix(corp,
control =
list(removePunctuation = TRUE,
stopwords = TRUE,
tolower = TRUE,
stemming = TRUE,
removeNumbers = TRUE,
bounds = list(global = c(3, Inf))))
inspect(opinions.tdm[1:10,])
Я получаю сообщение об ошибке:
Ошибка в
[.simple_triplet_matrix
(мнения.tdm, 1:10,): индекс вне пределов
Мой opinions.tdm
имеет следующие характеристики:
Список мнений.tdm длиной 6. целое число [1]. ncol [1]. список dimnames [2]. атрибуты [3]