Парсинг статей в PDF-файле, сохраненном как изображение
У меня есть файл сказать , как это и я хочу , чтобы получить содержание статьи под названием «Открытое заявление» на номер страницы 4. Либо мне нужно его в образе или в текстовом формате. Также это только одна статья, может быть несколько статей, похожих на эту. Как и на левой стороне, у вас есть две статьи, связанные с тендером спина к спине.
Я пробовал использовать pytesseract, но он считывает все изображение построчно и смешивает несколько содержимого вместе, как «Транспортная компания Hyaat Regency» на странице 4, смешивая две статьи.
Это код, который я использовал:
import pytesseract
from pytesseract import Output
import cv2
img = cv2.imread('Main2021_8_3257737.pdf')
d = pytesseract.image_to_data(img, output_type=Output.DICT)
Я также использовал
image_to_string
функция, но это не помогло. Любые предложения о том, как я могу найти поля, скажем, из образца pdf, упомянутого выше, и извлечь изображения или текст из таких полей? Я могу указать определенные ключевые слова, чтобы найти нужное поле, если это поможет. Или есть лучший способ извлечь статьи из образца pdf?
Я также пробовал pdfplumber, который не помог, так как для этого потребуются начальная и конечная позиции коробки, которые я не могу предоставить. Есть ли способ получить эти координаты для моих статей?
Точно так же фитц тоже не помог, поскольку, похоже, он рассматривает всю страницу как одно изображение вместо того, чтобы разбивать его.