Проблема с выделением текста в PDF-документе Python

Question

Проблема с выделением текста в PDF-документе Python

Я пытаюсь написать скрипт Python, который автоматизирует процесс поиска текста в PDF и выделяет в соответствии с

Я использую модуль python pymupdf. Это работает для некоторых pdf. Однако при использовании целевого PDF-файла (чертежа компонентов и таблиц свойств) вывод будет сохранен как пустой PDF-файл без данных и с некоторыми пустыми выделениями.

import fitz

doc=fitz.open("c5.pdf")

page = doc[0]

text = "a"

text_instances = page.searchFor(text)

for inst in text_instances:
    highlight = page.addHighlightAnnot(inst)


doc.save("out.pdf", garbage=4, deflate=True, clean=True)

1

python pdf annotations pymupdf

Источник

user12140050 08 ноя '19 в 02:00

1 ответ

Другие вопросы по тегам python pdf annotations pymupdf

user4474869 11 июн '20 в 23:35 2020-06-11 23:35 · Answer 1 · 2020-06-11 23:35

Ваш PDF-файл, вероятно, содержит элементы, которые выглядят как текст, но представляют собой нечто иное. Возможно, это просто какая-то графика или изображение. В этом случае поиск по тексту, конечно, ничего не может найти.

Пожалуйста, отправьте вопрос о моем репо для PyMuPDF с образцом PDF, чтобы я мог изучить это.