Создание списка ID# и номеров страниц из 8000+ страниц PDF, когда ключевые слова найдены на этих страницах в R
У меня есть PDF-файл с более чем 8000 страницами, который мне нужно, чтобы выяснить, как извлечь идентификационный номер и номер страницы для страниц, содержащих набор ключевых слов. Я бы хотел, чтобы продукт был таблицей, которая выглядит вот так. В столбце ключевых слов я хотел бы получить список ключевых слов из поиска, которые соответствуют на этой странице, включая несколько совпадений. К сожалению, я не могу поделиться документом из-за защищенной информации, поэтому привел пример.
Page# ID# keyword
1 123 basketball
2 456 basketball, foul
3 789 foul, rebound
Я пробовал несколько разных способов добиться этого, но безуспешно.
Z <- keyword_search(A,
keyword = c('basketball', 'foul', 'rebound'),
path = FALSE, surround_lines = 1)
Это казалось наиболее многообещающим, но я не мог понять, как получить MRN, и столбец с номером страницы был неправильным.