Извлечение информации в R с использованием Tesseract и OCR
Мне нужно извлечь информацию из PDF-документа на R, я использую tesseract. Я новичок в OCR и тессеракте. из документа, когда я конвертирую его в файл png, а затем конвертирую в текст, но информация становится очень беспорядочной, и слова не записываются в текст должным образом. Я использую следующий код:
pngfile <- pdftools::pdf_convert('C:/Users/Desktop/Repository/abc.pdf', dpi = 600)
text = paste((tesseract::ocr(pngfile)),collapse = "")
Sunil = strsplit(text,split = "\n")
В документах я не могу правильно получить информацию. Мне нужен контактный номер, адрес электронной почты. Для Country Risk мне нужно выбрать M. Кажется, мне тоже нужно улучшить изображения. Любые указатели / рекомендации будут очень благодарны