Описание тега pymupdf

PyMuPDF - это привязка Python для MuPDF - "облегченного средства просмотра PDF и XPS". MuPDF может получить доступ к файлам в форматах PDF, XPS, OpenXPS, CBZ (архив комиксов), FB2 и EPUB (электронные книги). ПРИМЕЧАНИЕ. Он импортируется в Python как fitz.
4 ответа

Проблемы с PyMuPDF извлечения простого текста

Я хочу читать в PDF-файл, используя PyMuPDF. Все, что мне нужно, это простой текст (не нужно извлекать информацию о цвете, шрифтах, таблицах и т. Д.). Я пробовал следующее import fitz from fitz import TextPage ifile = "C:\\user\\docs\\aPDFfile.pdf" …
04 июн '18 в 14:05
2 ответа

Как получить доступ к тексту с определенной страницы PDF, а не со всего документа

Я пытаюсь извлечь некоторые вещи из некоторых документов PDF. Я возился с различными инструментами, хотя больше всего вложил в pdfminer и pymupdf. Я начал с pdfminer, но начал тестировать pymupdf после того, как не смог решить одну конкретную пробле…
20 июн '19 в 01:43
1 ответ

Невозможно установить PyMuPDF на Mac 10.14.5

После запуска pip install pymupdf в моей среде conda я получаю сообщение об ошибке при попытке import fitz ModuleNotFoundError: нет модуля с именем 'fitz' Внутри моего терминала я побежал pip list | grep PyMuPDF проверить установку и вернуть PyMuPDF…
17 июл '19 в 19:00
0 ответов

Почему это "Page.InsertImage" вставляет серое изображение оригинального PNG?

Я пытаюсь добавить изображение png в качестве водяного знака к существующему PDF, я пытался использовать "Page.Insertimage" из PyMuPDF, хотя мне удалось вставить изображение в качестве водяного знака, но водяной знак появляется в оттенках серого. Я …
03 авг '19 в 23:55
0 ответов

Tkinter Canvas PDF Viewer Следующая страница рендеринг работает только при отладке

Я пытаюсь написать просмотрщик PDF в Python/Tkinter, используя библиотеку PyMuPDF. Я могу успешно открыть документ и отобразить первую страницу, но при попытке перейти на следующую страницу, удалив изображение холста и создав новую на новой странице…
0 ответов

Как определить, содержит ли страница PDF отредактированный материал?

У меня есть набор файлов PDF, для которых на некоторых страницах частично отредактировано содержимое через Adobe Acrobat. Я хотел бы программно перебирать каждую страницу и определять, содержит ли страница отредактированный контент, предпочтительно …
08 авг '19 в 21:12
2 ответа

Не удается прочитать содержимое определенной страницы файла PDF, доступного в Интернете

Я использовал библиотеку PyMuPDF для локального анализа содержимого любой конкретной страницы PDF-файла и обнаружил, что он работает. Однако, когда я пытаюсь применить ту же логику при анализе содержимого любой конкретной страницы PDF-файла, доступн…
16 авг '19 в 23:50
2 ответа

Сглаживание отрендеренных PDF-файлов с использованием wxPython + pymupdf

Я новичок в wxPython и pymupdf, и взглянул на примеры для wxPython + pymupdf. Они работают, однако качество pdf-страницы (отображается) довольно низкое. Я уверен, что это можно улучшить. В основном я ищу слютоин сглаживания. Однако я не знаю, как и …
18 июн '19 в 18:23
0 ответов

Нужна помощь в сохранении в PyMuPDF

Это базовый скрипт, который должен вставить изображение водяного знака на первой странице PDF и сохранить его под новым именем. Я мог бы сделать то же самое с теми же файлами в pdfrw, но я застрял с PyMuPDF (который я предпочел бы использовать...). …
20 июл '19 в 18:35
1 ответ

Как автоматически изменить размер QVBoxLayout в соответствии с его дочерним содержимым внутри QScrollArea?

В последнее время я пытаюсь использовать PyQT5 для создания программы просмотра PDF. Я адаптировал код, представленный в этом сообщении ( графический интерфейс Image Viewer не может правильно сопоставить координаты для события нажатия мыши). Я созда…
25 фев '20 в 11:31
3 ответа

добавление текста в PDF с помощью PyMuPDF

Я пытаюсь добавить текст в PDF-файл, открыв PDF-файл, добавив текстовое поле и сохранив его. Когда я запускаю код, ничего не происходит. на рабочем столе он показывает, что файл был обновлен, но на нем нет текста. Вот код: import fitz doc = fitz.ope…
05 авг '20 в 08:51
2 ответа

Есть ли какое-либо решение для извлечения таблицы без полей из PDF в CSV?

введите описание изображения здесь Это мой пример изображения из файла pdf с 75 страницами.
08 июн '20 в 10:49
2 ответа

Извлекайте изображения pdf с помощью pymupdf в правильном порядке

В настоящее время я работаю над экстрактором изображений Python 3.x для файлов pdf и не могу найти решение проблемы, с которой я сталкивался на протяжении всей моей работы. Я намерен извлечь все изображения из pdf-файлов (отчетов об автомобилях) без…
02 сен '19 в 11:59
1 ответ

Могу ли я с помощью pymupdf поместить в контейнер результат Page.showPDFPage?

Я хочу взять SVG и разместить их в углах существующих PDF-файлов с прозрачностью, а не растрировать результат (сохранить SVG как векторы в целевом PDF-файле). У меня есть фиктивный документ SVG для тестирования, созданный с помощью graphviz; для наг…
30 сен '19 в 22:19
1 ответ

Размеры Camelot PDF

Я тщательно искал stackru, прежде чем опубликовать это, и не смог найти ничего по размерам страницы камелота. Есть такой вопрос, который предлагает использоватьtable_regionно это не решает проблему OP или мою. К сожалению, я не могу комментировать, …
03 дек '19 в 22:19
1 ответ

Проблема с выделением текста в PDF-документе Python

Я пытаюсь написать скрипт Python, который автоматизирует процесс поиска текста в PDF и выделяет в соответствии с Я использую модуль python pymupdf. Это работает для некоторых pdf. Однако при использовании целевого PDF-файла (чертежа компонентов и та…
08 ноя '19 в 02:00
2 ответа

PyMuPDF | вставленное изображение находится не в том месте страницы pdf

Мне нужно вставить изображение на несколько страниц PDF- файла, и я использую insertImage. Следуя приведенному мной примеруfitz.Rect(0, 0, 50, 50)так как я хочу разместить изображение в верхнем левом углу страницы. Отлично работает для всех PDF-файл…
04 дек '19 в 18:06
0 ответов

Как правильно добавить альфа-канал к изображению, извлеченному из PDF, с помощью PyMuPDF

Я пытаюсь извлечь изображения из PDF с помощью PyMuPDF и этого рецепта. Для некоторых изображений с жесткой прозрачностью краев это работает. Но для изображений с матовой прозрачностью я получаю артефакты по краям. Когда я извлекаю изображение без а…
17 апр '20 в 16:07
1 ответ

Проблема с цветом при сохранении Pixmap страницы PDF как PNG с помощью PyMuPDF

Я запускаю следующий фрагмент кода Python из документации PyMuPDF 1.16.17, который сохраняет изображения PNG для каждой страницы в файле PDF. import sys, fitz # import the binding fname = "test.pdf" # get filename from command line doc = fitz.open(f…
21 апр '20 в 05:56
2 ответа

Как установить PyMuPDF на Heroku Django

Я пытаюсь создать сценарий, который извлекает изображения из PDF, и я создал сценарий в проекте Django и добавил pymupdf в файл requirements.txt. У меня есть файл Aptfile с Mupdf и https://github.com/heroku/heroku-buildpack-apt в качестве пакета сбо…
10 фев '20 в 15:57