Добавить текст в существующий PDF с использованием Python

Мне нужно добавить дополнительный текст в существующий PDF-файл с использованием Python, как это лучше всего сделать и какие дополнительные модули мне нужно будет установить.

Примечание: в идеале я хотел бы иметь возможность запускать это как в Windows, так и в Linux, но в один момент подойдет только Linux.

Редактировать: pyPDF и ReportLab выглядят хорошо, но ни один из них не позволит мне редактировать существующий PDF, есть ли другие варианты?

10 ответов

Решение

Я знаю, что это старый пост, но я потратил много времени, пытаясь найти решение. Я наткнулся на приличный, использующий только ReportLab и PyPDF, поэтому я решил поделиться:

  1. прочитайте свой PDF используя PdfFileReader()мы назовем этот вход
  2. создайте новый PDF-файл с вашим текстом для добавления с помощью ReportLab, сохраните его как строковый объект
  3. читать строковый объект, используя PdfFileReader()мы назовем этот текст
  4. создать новый объект PDF с помощью PdfFileWriter()мы назовем этот вывод
  5. перебрать ввод и применить .mergePage(*text*.getPage(0)) для каждой страницы, к которой вы хотите добавить текст, затем используйте output.addPage() добавить измененные страницы в новый документ

Это хорошо работает для простых текстовых дополнений. См. Образец PyPDF для водяных знаков документа.

Вот код, чтобы ответить на вопрос ниже:

packet = StringIO.StringIO()
can = canvas.Canvas(packet, pagesize=letter)
<do something with canvas>
can.save()
packet.seek(0)
input = PdfFileReader(packet)

Отсюда вы можете объединить страницы входного файла с другим документом.

Пример для [Python 2.7]:

from pyPdf import PdfFileWriter, PdfFileReader
import StringIO
from reportlab.pdfgen import canvas
from reportlab.lib.pagesizes import letter

packet = StringIO.StringIO()
# create a new PDF with Reportlab
can = canvas.Canvas(packet, pagesize=letter)
can.drawString(10, 100, "Hello world")
can.save()

#move to the beginning of the StringIO buffer
packet.seek(0)
new_pdf = PdfFileReader(packet)
# read your existing PDF
existing_pdf = PdfFileReader(file("original.pdf", "rb"))
output = PdfFileWriter()
# add the "watermark" (which is the new pdf) on the existing page
page = existing_pdf.getPage(0)
page.mergePage(new_pdf.getPage(0))
output.addPage(page)
# finally, write "output" to a real file
outputStream = file("destination.pdf", "wb")
output.write(outputStream)
outputStream.close()

Пример для Python 3.x:


from PyPDF2 import PdfFileWriter, PdfFileReader
import io
from reportlab.pdfgen import canvas
from reportlab.lib.pagesizes import letter

packet = io.BytesIO()
# create a new PDF with Reportlab
can = canvas.Canvas(packet, pagesize=letter)
can.drawString(10, 100, "Hello world")
can.save()

#move to the beginning of the StringIO buffer
packet.seek(0)
new_pdf = PdfFileReader(packet)
# read your existing PDF
existing_pdf = PdfFileReader(open("original.pdf", "rb"))
output = PdfFileWriter()
# add the "watermark" (which is the new pdf) on the existing page
page = existing_pdf.getPage(0)
page.mergePage(new_pdf.getPage(0))
output.addPage(page)
# finally, write "output" to a real file
outputStream = open("destination.pdf", "wb")
output.write(outputStream)
outputStream.close()

pdfrw позволит вам читать страницы из существующего PDF и рисовать их на холсте отчета (аналогично рисованию изображения). Примеры для этого есть в подкаталоге pdfrw examples / rl1 на github. Отказ от ответственности: я автор pdfrw.

Используя David Dehghan выше ответ David Dehghan, в Python 2.7.13 работают следующие:

from PyPDF2 import PdfFileWriter, PdfFileReader, PdfFileMerger

import StringIO

from reportlab.pdfgen import canvas
from reportlab.lib.pagesizes import letter

packet = StringIO.StringIO()
# create a new PDF with Reportlab
can = canvas.Canvas(packet, pagesize=letter)
can.drawString(290, 720, "Hello world")
can.save()

#move to the beginning of the StringIO buffer
packet.seek(0)
new_pdf = PdfFileReader(packet)
# read your existing PDF
existing_pdf = PdfFileReader("original.pdf")
output = PdfFileWriter()
# add the "watermark" (which is the new pdf) on the existing page
page = existing_pdf.getPage(0)
page.mergePage(new_pdf.getPage(0))
output.addPage(page)
# finally, write "output" to a real file
outputStream = open("destination.pdf", "wb")
output.write(outputStream)
outputStream.close()

cpdf выполнит эту работу из командной строки. Это не питон, хотя (afaik):

cpdf -add-text "Line of text" input.pdf -o output .pdf

На момент написания PyPDF2 обесценил PdfFileReader, PdfFileWriter и несколько других методов и изменил их на другие имена и методы, а также изменил такие методы, как getPage(), непосредственно на атрибут PdfReader.

Вот очень простой класс для добавления текста в существующий файл PDF: (Использование показано в конце)

      from PyPDF2 import PdfWriter, PdfReader, Transformation
import io
from reportlab.pdfgen.canvas import Canvas

class GenerateFromTemplate:
    def __init__(self,template):
        self.template_pdf = PdfReader(open(template, "rb"))
        self.template_page= self.template_pdf.pages[0]

        self.packet = io.BytesIO()
        self.c = Canvas(self.packet,pagesize=(self.template_page.mediabox.width,self.template_page.mediabox.height))

    
    def addText(self,text,point):
        self.c.drawString(point[0],point[1],text)

    def merge(self):
        self.c.save()
        self.packet.seek(0)
        result_pdf = PdfReader(self.packet)
        result = result_pdf.pages[0]

        self.output = PdfWriter()

        op = Transformation().rotate(0).translate(tx=0, ty=0)
        result.add_transformation(op)
        self.template_page.merge_page(result)
        self.output.add_page(self.template_page)
    
    def generate(self,dest):
        outputStream = open(dest,"wb")
        self.output.write(outputStream)
        outputStream.close()

"""
Use as:
gen = GenerateFromTemplate("template.pdf")
gen.addText("Hello!",(100,200))
gen.addText("PDF!",(100,300))
gen.merge()
gen.generate("Output.pdf")
"""

Надеюсь это поможет.

Если вы работаете в Windows, это может сработать:

PDF Creator Pilot

Также есть технический документ по созданию и редактированию PDF-файлов в Python. Это немного устарело, но, возможно, может дать вам некоторую полезную информацию:

Использование Python в качестве среды редактирования и обработки PDF

Не используйте mergePage, это может не работать для некоторых PDF-файлов. Вы должны использовать mergeRotatedTranslatedPage.

      from PyPDF2 import PdfFileWriter, PdfFileReader
import io
from reportlab.pdfgen.canvas import Canvas

page_to_merge = 0 #Refers to the First page of PDF 
xcoor = 250 #To be changed according to your pdf
ycoor = 650 #To be changed according to your pdf

input_pdf = PdfFileReader(open("Source.pdf", "rb"))
page_count = input_pdf.getNumPages()
inputpdf_page_to_be_merged = input_pdf.getPage(page_to_merge)

packet = io.BytesIO()
c = Canvas(packet,pagesize=(inputpdf_page_to_be_merged.mediaBox.getWidth(),inputpdf_page_to_be_merged.mediaBox.getHeight()))
c.drawString(xcoor,ycoor,"Hello World")
c.save()
packet.seek(0)

overlay_pdf = PdfFileReader(packet)
overlay = overlay_pdf.getPage(0)

output = PdfFileWriter()

for PAGE in range(page_count):
    if PAGE == page_to_merge:
        inputpdf_page_to_be_merged.mergeRotatedTranslatedPage(overlay, 
                inputpdf_page_to_be_merged.get('/Rotate') or 0, 
                overlay.mediaBox.getWidth()/2, overlay.mediaBox.getWidth()/2)
        output.addPage(inputpdf_page_to_be_merged)
    
    else:
        Page_in_pdf = input_pdf.getPage(PAGE)
        output.addPage(Page_in_pdf)

outputStream = open("destination.pdf", "wb")
output.write(outputStream)
outputStream.close()

Вы пробовали pyPdf?

Извините, у него нет возможности изменять содержимое страницы.

Возможно, вам повезет больше, если вы решите проблему, преобразовав PDF-файл в редактируемый формат, записав свои изменения, а затем преобразовав их обратно в PDF. Я не знаю библиотеки, которая позволяла бы вам напрямую редактировать PDF, но есть множество конвертеров между DOC и PDF, например.

Другие вопросы по тегам