Как определить, содержит ли страница PDF отредактированный материал?

Question

Как определить, содержит ли страница PDF отредактированный материал?

У меня есть набор файлов PDF, для которых на некоторых страницах частично отредактировано содержимое через Adobe Acrobat. Я хотел бы программно перебирать каждую страницу и определять, содержит ли страница отредактированный контент, предпочтительно с использованием Python (обратите внимание, что у меня нет проблем с перебиранием страниц PDF, просто определяю наличие отредактированного контента).

Я использовал функцию getText() PyMuPDF для проверки любых "побочных" индикаторов в текстовом слое PDF отредактированного пространства, но, похоже, никаких подсказок нет. Мне интересно, есть ли какие-либо другие данные, скрытые в PDF, которые я мог бы извлечь, которые указывали бы на слой редактирования.

2

python pdf acrobat pymupdf

Источник

user8418456 08 авг '19 в 21:12

0 ответов

Другие вопросы по тегам python pdf acrobat pymupdf