Портирование на Python3: PyPDF2 mergePage() дает TypeError
Я использую Python 3.4.2 и PyPDF2 1.24 (также использую reportlab 3.1.44 в случае, если это помогает) в Windows 7.
Я недавно обновился с Python 2.7 до 3.4, и я в процессе переноса своего кода. Этот код используется для создания пустой страницы PDF со встроенными в нее ссылками (с использованием reportlab) и объединения ее (с использованием PyPDF2) с существующей страницей PDF. У меня была проблема с reportlab в том, что при сохранении холста использовался StringIO, который нужно было заменить на BytesIO, но после этого я столкнулся с этой ошибкой:
Traceback (most recent call last):
File "C:\cms_software\pdf_replica\builder.py", line 401, in merge_pdf_files
input_page.mergePage(link_page)
File "C:\Python34\lib\site-packages\PyPDF2\pdf.py", line 2013, in mergePage
self.mergePage(page2)
File "C:\Python34\lib\site-packages\PyPDF2\pdf.py", line 2059, in mergePage
page2Content = PageObject._pushPopGS(page2Content, self.pdf)
File "C:\Python34\lib\site-packages\PyPDF2\pdf.py", line 1973, in _pushPopGS
stream = ContentStream(contents, pdf)
File "C:\Python34\lib\site-packages\PyPDF2\pdf.py", line 2446, in __init
stream = BytesIO(b_(stream.getData()))
File "C:\Python34\lib\site-packages\PyPDF2\generic.py", line 826, in getData
decoded._data = filters.decodeStreamData(self)
File "C:\Python34\lib\site-packages\PyPDF2\filters.py", line 326, in decodeStreamData
data = ASCII85Decode.decode(data)
File "C:\Python34\lib\site-packages\PyPDF2\filters.py", line 264, in decode
data = [y for y in data if not (y in ' \n\r\t')]
File "C:\Python34\lib\site-packages\PyPDF2\filters.py", line 264, in
data = [y for y in data if not (y in ' \n\r\t')]
TypeError: 'in <string>' requires string as left operand, not int
Вот строка и строка выше, где упоминается трассировка:
link_page = self.make_pdf_link_page(pdf, size, margin, scale_factor, debug_article_links)
if link_page != None:
input_page.mergePage(link_page)
Вот соответствующие части этой функции make_pdf_link_page:
packet = io.BytesIO()
can = canvas.Canvas(packet, pagesize=(size['width'], size['height']))
....# left out code here is just reportlab specifics for size and url stuff
can.linkURL(url, r1, thickness=1, color=colors.green)
can.rect(x1, y1, width, height, stroke=1, fill=0)
# create a new PDF with Reportlab that has the url link embedded
can.save()
packet.seek(0)
try:
new_pdf = PdfFileReader(packet)
except Exception as e:
logger.exception('e')
return None
return new_pdf.getPage(0)
Я предполагаю, что это проблема с использованием BytesIO, но я не могу создать страницу с reportlab с помощью StringIO. Это критическая функция, которая отлично работала с Python 2.7, поэтому я буду признателен за любые отзывы по этому поводу. Спасибо!
ОБНОВЛЕНИЕ: я также попытался перейти от использования BytesIO к простой записи во временный файл, а затем к слиянию. К сожалению, я получил ту же ошибку. Вот временная версия:
import tempfile
temp_dir = tempfile.gettempdir()
temp_path = os.path.join(temp_dir, "tmp.pdf")
can = canvas.Canvas(temp_path, pagesize=(size['width'], size['height']))
....
can.showPage()
can.save()
try:
new_pdf = PdfFileReader(temp_path)
except Exception as e:
logger.exception('e')
return None
return new_pdf.getPage(0)
ОБНОВЛЕНИЕ: я нашел интересную информацию об этом. Кажется, что если я закомментирую вызовы can.rect и can.linkURL, они будут объединены. Таким образом, рисование чего-либо на странице, затем попытка слияния с моим существующим pdf вызывает ошибку.
1 ответ
После изучения кода библиотеки PyPDF2 я смог найти свой собственный ответ. Для пользователей Python 3 старые библиотеки могут быть сложными. Даже если они говорят, что поддерживают Python 3, они не обязательно проверяют все. В этом случае проблема была с классом ASCII85Decode в filters.py в PyPDF2. Для Python 3 этот класс должен возвращать байты. Я заимствовал код для этого же типа функции из pdfminer3k, который является портом для python 3 из pdfminer. Если вы замените класс ASCII85Decode() на этот код, он будет работать:
import struct
class ASCII85Decode(object):
def decode(data, decodeParms=None):
if isinstance(data, str):
data = data.encode('ascii')
n = b = 0
out = bytearray()
for c in data:
if ord('!') <= c and c <= ord('u'):
n += 1
b = b*85+(c-33)
if n == 5:
out += struct.pack(b'>L',b)
n = b = 0
elif c == ord('z'):
assert n == 0
out += b'\0\0\0\0'
elif c == ord('~'):
if n:
for _ in range(5-n):
b = b*85+84
out += struct.pack(b'>L',b)[:n-1]
break
return bytes(out)