Проблема с выделением текста в PDF-документе Python
Я пытаюсь написать скрипт Python, который автоматизирует процесс поиска текста в PDF и выделяет в соответствии с
Я использую модуль python pymupdf. Это работает для некоторых pdf. Однако при использовании целевого PDF-файла (чертежа компонентов и таблиц свойств) вывод будет сохранен как пустой PDF-файл без данных и с некоторыми пустыми выделениями.
import fitz
doc=fitz.open("c5.pdf")
page = doc[0]
text = "a"
text_instances = page.searchFor(text)
for inst in text_instances:
highlight = page.addHighlightAnnot(inst)
doc.save("out.pdf", garbage=4, deflate=True, clean=True)
1 ответ
Ваш PDF-файл, вероятно, содержит элементы, которые выглядят как текст, но представляют собой нечто иное. Возможно, это просто какая-то графика или изображение. В этом случае поиск по тексту, конечно, ничего не может найти.
Пожалуйста, отправьте вопрос о моем репо для PyMuPDF с образцом PDF, чтобы я мог изучить это.