Создание списка ID# и номеров страниц из 8000+ страниц PDF, когда ключевые слова найдены на этих страницах в R

У меня есть PDF-файл с более чем 8000 страницами, который мне нужно, чтобы выяснить, как извлечь идентификационный номер и номер страницы для страниц, содержащих набор ключевых слов. Я бы хотел, чтобы продукт был таблицей, которая выглядит вот так. В столбце ключевых слов я хотел бы получить список ключевых слов из поиска, которые соответствуют на этой странице, включая несколько совпадений. К сожалению, я не могу поделиться документом из-за защищенной информации, поэтому привел пример.

Page#   ID#     keyword
1       123     basketball
2       456     basketball, foul
3       789     foul, rebound

Я пробовал несколько разных способов добиться этого, но безуспешно.

Z <- keyword_search(A, 
            keyword = c('basketball', 'foul', 'rebound'),
            path = FALSE, surround_lines = 1)

Это казалось наиболее многообещающим, но я не мог понять, как получить MRN, и столбец с номером страницы был неправильным.

0 ответов

Другие вопросы по тегам