Как конвертировать PDF изображение в текст в Python
Я хочу удалить данные из PDF, но данные доступны только в виде изображения в PDF. Итак, как я могу удалить данные в тексте из?
Данные в форме изображения в формате PDF введите описание изображения здесь
Теперь, как я могу собрать эти данные в форму Excel
Мой код:-
import PyPDF2
from PIL import Image
from pytesseract import image_to_string
file=open("1.pdf", 'rb')
pdfreader=PyPDF2.PdfFileReader(file)
print(pdfreader.numPages)
pageObj = pdfreader.getPage(0)
print(pageObj.extractText())
file.close()
#img = image_to_string(Image.open(pdfreader), lang='eng')
#print(img)
Выход: 25