Извлечение информации в R с использованием Tesseract и OCR

Мне нужно извлечь информацию из PDF-документа на R, я использую tesseract. Я новичок в OCR и тессеракте. из документа, когда я конвертирую его в файл png, а затем конвертирую в текст, но информация становится очень беспорядочной, и слова не записываются в текст должным образом. Я использую следующий код:

pngfile <- pdftools::pdf_convert('C:/Users/Desktop/Repository/abc.pdf', dpi = 600)

text = paste((tesseract::ocr(pngfile)),collapse = "")

Sunil = strsplit(text,split = "\n")

В документах я не могу правильно получить информацию. Мне нужен контактный номер, адрес электронной почты. Для Country Risk мне нужно выбрать M. Кажется, мне тоже нужно улучшить изображения. Любые указатели / рекомендации будут очень благодарны

0 ответов

Другие вопросы по тегам