Удалить пробел из PDF документа

Question

Удалить пробел из PDF документа

Я использую Camelot-py для чтения и извлечения атрибутов из нескольких PDF-файлов. Я использую table_areas для извлечения некоторых атрибутов, и я сталкиваюсь с трудностями при настройке правильных областей из-за отклонения координат X или Y между некоторыми формами. Некоторые формы (образец 1) имеют минимальные пробелы вверху, в то время как другие (образец 2) имеют больше пробелов. Это смещает Y-координаты примерно на 10-15

Образец 1

Образец 2

Есть ли способ обрезать или унифицировать их во время выполнения?

1

python removing-whitespace python-camelot pdf-extraction

Источник

user9368056 28 янв '19 в 13:00

1 ответ

Другие вопросы по тегам python removing-whitespace python-camelot pdf-extraction

user10883094 29 янв '19 в 09:20 2019-01-29 09:20 · Answer 1 · 2019-01-29 09:20

Я думаю, что решение заключается в использовании параметра table_regions, как указано в разделе Найти размеры PDF с помощью Camelot.

Узнайте больше о table_regions в: https://camelot-py.readthedocs.io/en/master/user/advanced.html

0

Источник

user10883094 29 янв '19 в 09:20

user9926721 08 дек '19 в 14:15 2019-12-08 14:15 · Answer 2 · 2019-12-08 14:15

Для этой функции вы можете использовать pdfCropMargins, который обрезает поля файлов PDF. Он реализован как приложение командной строки, чтобы вызвать его из Python:

import subprocess

filename = "test.pdf"

cmd = f"pdf-crop-margins -v -s -u {filename}"

proc = subprocess.Popen(cmd.split())
proc.wait()

Из документации:

Эта команда печатает подробный вывод, заставляет все страницы иметь одинаковый размер (-s), а затем обрезает каждую страницу одинакового размера (-u) для единообразного внешнего вида, сохраняя значение по умолчанию 10% полей.