Перенос данных PDF в Excel * абсолютный новичок *

Это буквально первый день питона для меня. В прошлом я программировал на VBA, Java и Swift, но мне особенно тяжело следовать инструкциям в Интернете по кодированию PDF-скребка. Поскольку я понятия не имею, что я делаю, я все время сталкиваюсь со стеной, каждый раз, когда я хочу протестировать часть кода, который я нашел в Интернете.

Базовая информация

  • Windows 7 64bit
  • Python 3.6.0
  • Spyder3
  • У меня есть много пакетов кода, связанных с PDF (PyPDF2, pdfminer, pdfquery, pdfwrw и т. Д.)

цели

Создать что-то в python, что позволит мне конвертировать PDF-файлы из папки в файл Excel (в идеале) ИЛИ в текстовый файл (из которого я буду использовать VBA для конвертации).

вопросы

Каждый раз, когда я пробую некоторый пример кода из руководств, которые я нашел в Интернете, я всегда сталкиваюсь с синтаксическими ошибками в строках, где я вызываю pdf, на котором я хочу протестировать код. Некоторые ссылки на руководство и примеры ошибок приведены ниже. Должен ли я поместить свой test.pdf в тот же файл, что и файл.py?

runfile('C:/Users/U587208/Desktop/pdffolder/pdfminer.py', wdir='C:/Users/U587208/Desktop/pdffolder')
  File "C:/Users/U587208/Desktop/pdffolder/pdfminer.py", line 79
    print pdf_to_csv('test.pdf', separator, threshold)
                   ^
SyntaxError: invalid syntax

3 ответа

Кажется, что учебники, которые вы читаете, используют Python 2. Обычно заметных отличий мало, самое большое в том, что в Python 3 печать стала функцией, поэтому

print()

Я бы порекомендовал либо изменить вашу версию Python, либо найти учебник для Python 3. Надеюсь, это поможет

Я пытаюсь сделать то же самое! Я смог преобразовать свой PDF в текст, однако форматирование очень случайное и грязное, и мне нужно, чтобы таблицы оставались в порядке, чтобы иметь возможность записывать их в таблицы данных Excel. Сейчас я пытаюсь преобразовать в XML, чтобы увидеть, будет ли легче извлечь из. Если я доберусь до этого, я дам вам знать:)

Кстати, используйте Python 2, если вы собираетесь использовать pdfminer. Вот некоторая помощь с pdfminer https://media.readthedocs.org/pdf/pdfminer-docs/latest/pdfminer-docs.pdf

Здесь Pdfminer Python 3.5 пример, как извлечь информацию из PDF. Но это не решает проблему с таблицами, которые вы хотите экспортировать в Excel. Коммерческие продукты, вероятно, лучше в этом...

Другие вопросы по тегам