pdf_ocr_text() вылетает R
Я использую pdftools
а также tesseract
для применения OCR к некоторым отчетам PDF, доступным в Интернете. Например, для использования страницы 2 этого отчета необходимо применить OCR. Однако, когда я пытаюсь использоватьpdf_ocr_text()
на его URL-адресе я получаю сообщение о том, что сеанс R был прерван.
В частности, вот что я запускаю:pdf_text_ocr('https://ciwqs.waterboards.ca.gov/ciwqs/readOnly/PublicAttachmentRetriever?parentID=360578&attachmentID=504624&attType=3', pages = 2)