Слишком длинное имя файла при использовании keyword_search для обнаружения PDF?

Question

Слишком длинное имя файла при использовании keyword_search для обнаружения PDF?

Я пытаюсь выполнить интеллектуальный анализ текста PDF-файла, выполнив поиск по определенным ключевым словам.

Это мой код:

library(pdftools)
library(tidyverse)
library(pdfsearch)

UC_text <- pdf_text("https://wilmar-iframe.todayir.com/attachment/20190411162436345449392_en.pdf") 

result <- keyword_search(UC_text, 
                         keyword = c('SUBSTANTIAL SHAREHOLDERS'),
                         path = TRUE, surround_lines = 1)

Однако я получил сообщение об ошибке слишком длинное имя файла. Как я могу решить эту проблему?

2

r text-mining pdftools

Источник

user11358525 15 фев '20 в 04:32

1 ответ

Решение

Другие вопросы по тегам r text-mining pdftools

user3304471 15 фев '20 в 11:41 2020-02-15 11:41 · Accepted Answer · 2020-02-15 11:41

Учитывая объяснение в руководстве по крану pdfsearch, вы можете напрямую передать ссылку PDF на keyword_search(). Таким образом, я не вижу предоставленного вами сообщения об ошибке. Я скорее получил следующий результат.

result <- keyword_search("https://wilmar-iframe.todayir.com/attachment/20190411162436345449392_en.pdf", 
                         keyword = c('SUBSTANTIAL SHAREHOLDERS'),
                         path = TRUE, surround_lines = 1)

  keyword                  page_num line_num line_text token_text
  <chr>                       <int>    <int> <list>    <list>    
1 SUBSTANTIAL SHAREHOLDERS       49     2010 <chr [3]> <list [3]>