Как редактировать редактируемый pdf с помощью библиотеки pdfrw?
Я занимался исследованием того, как редактировать PDF, используя Python, и нашел эту статью:
Как заполнить заполняемые PDF с помощью Python
Однако существует проблема, когда программа запускается, и вы открываете PDF, документ не заполняется, только когда вы нажимаете на теги, он показывает данные, а когда вы щелкаете, он снова исчезает. Это код, который можно найти в Интернете, который кто-то написал.
#! /usr/bin/python
import os
import pdfrw
INVOICE_TEMPLATE_PATH = 'invoice_template.pdf'
INVOICE_OUTPUT_PATH = 'invoice.pdf'
ANNOT_KEY = '/Annots'
ANNOT_FIELD_KEY = '/T'
ANNOT_VAL_KEY = '/V'
ANNOT_RECT_KEY = '/Rect'
SUBTYPE_KEY = '/Subtype'
WIDGET_SUBTYPE_KEY = '/Widget'
def write_fillable_pdf(input_pdf_path, output_pdf_path, data_dict):
template_pdf = pdfrw.PdfReader(input_pdf_path)
annotations = template_pdf.pages[0][ANNOT_KEY]
for annotation in annotations:
if annotation[SUBTYPE_KEY] == WIDGET_SUBTYPE_KEY:
if annotation[ANNOT_FIELD_KEY]:
key = annotation[ANNOT_FIELD_KEY][1:-1]
if key in data_dict.keys():
annotation.update(
pdfrw.PdfDict(V='{}'.format(data_dict[key]))
)
pdfrw.PdfWriter().write(output_pdf_path, template_pdf)
data_dict = {
'business_name_1': 'Bostata',
'customer_name': 'company.io',
'customer_email': 'joe@company.io',
'invoice_number': '102394',
'send_date': '2018-02-13',
'due_date': '2018-03-13',
'note_contents': 'Thank you for your business, Joe',
'item_1': 'Data consulting services',
'item_1_quantity': '10 hours',
'item_1_price': '$200/hr',
'item_1_amount': '$2000',
'subtotal': '$2000',
'tax': '0',
'discounts': '0',
'total': '$2000',
'business_name_2': 'Bostata LLC',
'business_email_address': 'hi@bostata.com',
'business_phone_number': '(617) 930-4294'
}
if __name__ == '__main__':
write_fillable_pdf(INVOICE_TEMPLATE_PATH, INVOICE_OUTPUT_PATH, data_dict)
6 ответов
Я понял, что если вы добавите параметр NeedAppearances, вы решите свою проблему:
template_pdf = pdfrw.PdfReader(TEMPLATE_PATH)
template_pdf.Root.AcroForm.update(pdfrw.PdfDict(NeedAppearances=pdfrw.PdfObject('true')))
Обновление функции записи для клавиш AP и V устранило проблему для меня в предварительном просмотре
pdfrw.PdfDict(AP=data_dict[key], V=data_dict[key])
Ошибка связана с тем, что с полем не связан ни один поток появления, но вы создали его неправильно. Вы только что назначили словарь AP и транслируете его. Что вам нужно сделать, так это назначить косвенный Xobject для /N в /AP-словаре; и вам нужно создать ящик Xobject с нуля. Код должен быть примерно таким:
from pdfrw import PdfWriter, PdfReader, IndirectPdfDict, PdfName, PdfDict
INVOICE_TEMPLATE_PATH = 'untitled.pdf'
INVOICE_OUTPUT_PATH = 'untitled-output.pdf'
field1value = 'im field_1 value'
template_pdf = PdfReader(INVOICE_TEMPLATE_PATH)
template_pdf.Root.AcroForm.Fields[0].V = field1value
#this depends on page orientation
rct = template_pdf.Root.AcroForm.Fields[0].Rect
hight = round(float(rct[3]) - float(rct[1]),2)
width =(round(float(rct[2]) - float(rct[0]),2)
#create Xobject
xobj = IndirectPdfDict(
BBox = [0, 0, width, hight],
FormType = 1,
Resources = PdfDict(ProcSet = [PdfName.PDF, PdfName.Text]),
Subtype = PdfName.Form,
Type = PdfName.XObject
)
#assign a stream to it
xobj.stream = '''/Tx BMC
BT
/Helvetica 8.0 Tf
1.0 5.0 Td
0 g
(''' + field1value + ''') Tj
ET EMC'''
#put all together
template_pdf.Root.AcroForm.Fields[0].AP = PdfDict(N = xobj)
#output to new file
PdfWriter().write(INVOICE_OUTPUT_PATH, template_pdf)
Примечание: FYI: /Type, /FormType, /Resorces не являются обязательными (/Resources настоятельно рекомендуется).
Чтобы расширить ответ Серджио выше, следующая строка:
template_pdf.Root.AcroForm.update(pdfrw.PdfDict(NeedAppearances=pdfrw.PdfObject('true')))
В примере кода из OP следует поставить после этой строки:
template_pdf = pdfrw.PdfReader(input_pdf_path)
Если у кого-то есть раскрывающиеся поля в форме, которую вы хотите заполнить данными, вы можете использовать приведенный ниже код. (Может избавить кого-то от хлопот, через которые я прошел)
if key in data_dict.keys():
#see if its a dropdown
if('/I' in annotation.keys()):
#field is a dropdown
#Check if value is in preset list of dropdown, and at what value
if data_dict[key] in annotation['/Opt']:
#Value is in dropdown list,select value from list
annotation.update(pdfrw.PdfDict(I='[{}]'.format(annotation['/Opt'].index(data_dict[key]))))
else:
#Value is not in dropdown list, add as 'free input'
annotation.update(pdfrw.PdfDict(I='{}'.format(None)))
annotation.update(pdfrw.PdfDict(V='{}'.format(data_dict[key])))
else:
#update the textfieldvalue
annotation.update(pdfrw.PdfDict(V='{}'.format(data_dict[key])))
также не то, что код OP работает только для первой страницы из-за
template_pdf.pages[0]
У меня была проблема: значения полей появлялись, если вы открывали их в Acrobat, но многие из них были невидимы, если вы открывали их в Chrome или Preview, если вы не нажимали на них. И они не будут доступны программно (с помощью pdfplumber).
Преобразование файла в PDF/A в Acrobat (не в Preview) решило проблему для большинства файлов.