Проблема с выделением текста в PDF-документе Python

Я пытаюсь написать скрипт Python, который автоматизирует процесс поиска текста в PDF и выделяет в соответствии с

Я использую модуль python pymupdf. Это работает для некоторых pdf. Однако при использовании целевого PDF-файла (чертежа компонентов и таблиц свойств) вывод будет сохранен как пустой PDF-файл без данных и с некоторыми пустыми выделениями.

import fitz

doc=fitz.open("c5.pdf")

page = doc[0]

text = "a"

text_instances = page.searchFor(text)

for inst in text_instances:
    highlight = page.addHighlightAnnot(inst)


doc.save("out.pdf", garbage=4, deflate=True, clean=True)

1 ответ

Ваш PDF-файл, вероятно, содержит элементы, которые выглядят как текст, но представляют собой нечто иное. Возможно, это просто какая-то графика или изображение. В этом случае поиск по тексту, конечно, ничего не может найти.

Пожалуйста, отправьте вопрос о моем репо для PyMuPDF с образцом PDF, чтобы я мог изучить это.

Другие вопросы по тегам