pdfparser от pdfminer: PDFException: PDFDocument не инициализирован

Question

pdfparser от pdfminer: PDFException: PDFDocument не инициализирован

Я не понимаю эту ошибку. Я хочу открыть PDF и перебрать страницы, но я получаю это исключение, и я не могу найти много, погуглив его.

Вот пример, который терпит неудачу

from pdfminer.pdfparser import PDFParser, PDFDocument
from os.path import basename, splitext

file = 'tmpfiles/tmpfile.pdf'
filename = splitext(basename(file))[0]
fp = open(file, 'rb')
parser = PDFParser(fp)
doc = PDFDocument(parser)
num_page = 0
text = ""
pages = doc.get_pages()
for p in pages:
    print("do whatever")

Вот обратная связь

Traceback (most recent call last):
  File "test.py", line 20, in <module>
    for p in pages:
  File "/home/.../anaconda3/lib/python3.6/site-packages/pdfminer/pdfparser.py", line 544, in get_pages
    raise PDFException('PDFDocument is not initialized')
pdfminer.pdftypes.PDFException: PDFDocument is not initialized

У меня питон 3,6

Перед тем, как сделать это, я сохраняю файл pdf следующим образом, потому что у меня есть содержимое в кодированной строке base64.

decoded = base64.b64decode(content_string)
with open(tmpfiles_path+'tmpfile.pdf', 'wb') as fout:
     fout.write(decoded)

Может ли быть так, что файл сохраняется с некоторой защитой?

1

python-3.x exception pdfminer pdfparser

Источник

user1269703 08 фев '19 в 17:00

1 ответ

Решение

Другие вопросы по тегам python-3.x exception pdfminer pdfparser

user1269703 08 фев '19 в 18:26 2019-02-08 18:26 · Accepted Answer · 2019-02-08 18:26

Проблема была в версии pdfminer, которую я использовал. Установив pdfminer.six и изменив код таким образом

from pdfminer.pdfpage import PDFPage

file = 'tmpfiles/tmpfile.pdf'
fp = open(file, 'rb')
pages = PDFPage.get_pages(fp)
for p in pages:
    print("do whatever")

Теперь это работает.

2

Источник

user1269703 08 фев '19 в 18:26