Перенос данных PDF в Excel * абсолютный новичок *
Это буквально первый день питона для меня. В прошлом я программировал на VBA, Java и Swift, но мне особенно тяжело следовать инструкциям в Интернете по кодированию PDF-скребка. Поскольку я понятия не имею, что я делаю, я все время сталкиваюсь со стеной, каждый раз, когда я хочу протестировать часть кода, который я нашел в Интернете.
Базовая информация
- Windows 7 64bit
- Python 3.6.0
- Spyder3
- У меня есть много пакетов кода, связанных с PDF (PyPDF2, pdfminer, pdfquery, pdfwrw и т. Д.)
цели
Создать что-то в python, что позволит мне конвертировать PDF-файлы из папки в файл Excel (в идеале) ИЛИ в текстовый файл (из которого я буду использовать VBA для конвертации).
вопросы
Каждый раз, когда я пробую некоторый пример кода из руководств, которые я нашел в Интернете, я всегда сталкиваюсь с синтаксическими ошибками в строках, где я вызываю pdf, на котором я хочу протестировать код. Некоторые ссылки на руководство и примеры ошибок приведены ниже. Должен ли я поместить свой test.pdf в тот же файл, что и файл.py?
- Как скрести таблицы в тысячи файлов PDF?
- Я получил недопустимую синтаксическую ошибку из-за "for" в последней строке
- PDFMiner guide ( Ссылка)
runfile('C:/Users/U587208/Desktop/pdffolder/pdfminer.py', wdir='C:/Users/U587208/Desktop/pdffolder')
File "C:/Users/U587208/Desktop/pdffolder/pdfminer.py", line 79
print pdf_to_csv('test.pdf', separator, threshold)
^
SyntaxError: invalid syntax
3 ответа
Кажется, что учебники, которые вы читаете, используют Python 2. Обычно заметных отличий мало, самое большое в том, что в Python 3 печать стала функцией, поэтому
print()
Я бы порекомендовал либо изменить вашу версию Python, либо найти учебник для Python 3. Надеюсь, это поможет
Я пытаюсь сделать то же самое! Я смог преобразовать свой PDF в текст, однако форматирование очень случайное и грязное, и мне нужно, чтобы таблицы оставались в порядке, чтобы иметь возможность записывать их в таблицы данных Excel. Сейчас я пытаюсь преобразовать в XML, чтобы увидеть, будет ли легче извлечь из. Если я доберусь до этого, я дам вам знать:)
Кстати, используйте Python 2, если вы собираетесь использовать pdfminer. Вот некоторая помощь с pdfminer https://media.readthedocs.org/pdf/pdfminer-docs/latest/pdfminer-docs.pdf
Здесь Pdfminer Python 3.5 пример, как извлечь информацию из PDF. Но это не решает проблему с таблицами, которые вы хотите экспортировать в Excel. Коммерческие продукты, вероятно, лучше в этом...