Как конвертировать PDF изображение в текст в Python

Я хочу удалить данные из PDF, но данные доступны только в виде изображения в PDF. Итак, как я могу удалить данные в тексте из?

Данные в форме изображения в формате PDF введите описание изображения здесь

Теперь, как я могу собрать эти данные в форму Excel

Мой код:-

import PyPDF2
from PIL import Image
from pytesseract import image_to_string

file=open("1.pdf", 'rb')
pdfreader=PyPDF2.PdfFileReader(file)
print(pdfreader.numPages)
pageObj = pdfreader.getPage(0)
print(pageObj.extractText())
file.close() 
#img = image_to_string(Image.open(pdfreader), lang='eng')
#print(img)

Выход: 25

-4

python pdf-scraping datascript

Источник

user10650460 14 ноя '18 в 08:06

0 ответов

Другие вопросы по тегам python pdf-scraping datascript