Описание тега python-pdfreader

Описание тега Вопросы с тегом

Python API для анализа документов PDF, извлечения текстов (простых и отформатированных), изображений, XObjects, форм и других данных. Обеспечивает прямой доступ ко всем атрибутам объекта и истории объекта. Соответствует спецификации PDF 1.7.

0 ответов

Я не получаю нужный текст из метода извлечения текста PyPDF2

На первой странице моего PDF-файла указаны имя и дата рождения кандидата в этом формате. Я использую следующий код для извлечения информации в python import PyPDF2 pFile = open('MMout.pdf','rb') pdfReadr = PyPDF2.PdfFileReader(pFile) pageObj = pdfRe…

20 июл '20 в 05:28

2 ответа

Документ PDF: как проверить цифровую подпись с помощью Python?

Мы делаем проект RPA и извлекаем PDF-файл данных, чтобы превзойти его, используя python. Теперь нам нужно проверить цифровую подпись в PDF.

python pdf digital-signature signature python-pdfreader

28 ноя '19 в 15:34

1 ответ

Нужна помощь в импорте данных из pdfplumber в файл .csv

Я использовал pdfplumber для извлечения текста из PDF-файлов, но когда я попытался импортировать данные, используя to_csv, выдает #me ошибку. Нужна помощь в импорте данных в CSV import pdfplumber import pandas as pd import numpy as np import os impo…

python pdf text-extraction tabula python-pdfreader

16 мар '20 в 10:31

1 ответ

Как сохранить PDF в базе данных MySQL без создания файла PDF в Python

Итак, в основном у меня есть данные PDF в кодировке base64 в базе данных MySQL, и я хочу манипулировать этими данными (обновлять поля формы данных файла PDF), после этого без создания / записи файла PDF, я хочу сохранить эти обработанные / обновленн…

python python-3.x base64 pypdf2 python-pdfreader

29 апр '20 в 21:27

0 ответов

прочитать дату с помощью pdfminer3 в python

Я пытаюсь автоматически извлечь дату, которая стоит после слова "дата" в PDF-файле. Я попробовал код, предложенный ЛаВаром в этом ответе: Как использовать PDFminer.six с python 3? Это работает очень хорошо, и я получаю текстовую строку документа. К …

python pdfminer python-pdfreader

26 май '20 в 14:02

3 ответа

Django открывает pdf на определенном номере страницы

Я пытаюсь создать веб-приложение для анализа PDF-файлов и застрял. Я хочу разрешить пользователю открывать определенную страницу PDF-файла, содержащую более 300 страниц. Итак, может ли кто-нибудь сказать мне, как использовать Django, чтобы открыть P…

python django django-views django-templates python-pdfreader

17 июл '20 в 19:01

0 ответов

Как мы можем создать пустой PDF-файл с помощью pypdf2?

import PyPDF2 writer = PyPDF2.PdfFileWriter() writer.addBlankPage(219, 297) with open (r"C:\\Users\\Aditya\\.spyder-py3\\scripting in python\\sample pdf with python\\mergedpdf.pdf","wb") as file: writer.write(file) file.close() н…

python pdf python-3.8 pypdf2 python-pdfreader

08 авг '20 в 20:51

1 ответ

Как прочитать данные из PDF-файла банковской выписки в Python?

Мне нужно прочитать данные из PDF-файла банковской выписки, который содержит текст и таблицу. Я пробовал некоторые решения, предоставляемые через переполнение стека, но для большинства из них возникали ошибки. Из многих следующий код работал у меня,…

python python-pdfreader

29 июн '20 в 10:44

2 ответа

Python не печатает PDF с помощью pyPDF2

Я пробовал распечатать страницы документа pdf: import PyPDF2 FILE_PATH = 'my.pdf' with open(FILE_PATH, mode='rb') as f: reader = PyPDF2.PdfFileReader(f) page = reader.getPage(0) # I tried also other pages e.g 1,2,.. print(page.extractText()) Но я по…

python pdf pypdf2 python-pdfreader

21 апр '20 в 22:58

1 ответ

не могу использовать PyPDF2, чтобы открыть PDF-файл на ноутбуке jupyter

Я попытался открыть файл pdf, который я загрузил с уже установленным модулем PyPDF2, вот так: import PyPDF2 pdfFileObj = open('ssopenpyxl-readthedocs-io-en-latest.pdf', 'rb') pdfReader = PyPDF2.PdfFileReader(pdfFileObj) pdfReader.numPages и он дал м…

python-3.x jupyter-notebook python-pdfreader

18 окт '20 в 05:39

1 ответ

pdfplumber дает fp.seek(pos) AttributeError: объект 'dict' не имеет атрибута 'seek'

Итак, это мой код: def main(): import combinedparser as cp from tkinter.filedialog import askopenfilenames files = askopenfilenames() print(files) #this gives the right files as a list of strings composed of path+filename def file_discriminator(func…

python python-3.x pdf python-decorators python-pdfreader

22 сен '20 в 10:19

0 ответов

Reportlab: Вставить PDF и сдвинуть вниз

В настоящее время я вставляю PDF-файл в другой как изображение, что отлично работает, за исключением того, что мне нужно сместить вставленный PDF-файл вниз на 1 дюйм (и обрезать 1 дюйм от дна). Вот что я сейчас делаю: from reportlab.pdfgen.canvas im…

python-3.x reportlab python-pdfreader

19 окт '20 в 18:41

1 ответ

Поля «Создано» и «Изменено» в свойствах документа (PDF) не отображались.

В настоящее время я объединил несколько PDF-файлов вместе, чтобы создать один PDF-файл. Я добавил информацию о метаданных, которая включает два поля «Создано» и «Изменено», но в результате эти поля по-прежнему не отображают информацию. Вот мой исход…

python python-3.x pymupdf python-pdfreader

03 фев '21 в 15:17

1 ответ

Как просмотреть PDF-файл, созданный в Databricks

Я попытался создать образец файла PDF, используя приведенный ниже код. Я считаю, что PDF-файл был создан, но я не могу его просмотреть. Как мне просмотреть этот PDF-файл и как его экспортировать. Я новичок в сборщиках данных. Пожалуйста, помогите на…

python pdf databricks pdf-generation python-pdfreader

18 фев '21 в 18:53

0 ответов

PyPDF2 возвращает ошибки, когда я передаю ему файл

Я изучаю Python и написал этот проект, так как он мне показался интересным и мне нужна помощь. Часть кода я написал сам, а часть - исследуя модули, когда они мне нужны. Ссылка для моего кода Пожалуйста, помогите мне завершить проект. Ошибки у меня е…

python tkinter pypdf2 pyttsx3 python-pdfreader

09 май '21 в 11:10

1 ответ

Сравнение ключевых слов с файлами PDF

Вот программа, которая вызывает файлы по имени папки и извлекает данные. Теперь я хочу сравнить данные с ключевыми словами, которые я использовал в программе ниже. Но это дает мне: pdfReader = pdfFileObj.loadPage(0) AttributeError: '_io.BufferedRead…

python pdf pymupdf python-pdfreader

24 июн '21 в 10:42

0 ответов

Очистка PDF с помощью PyPDF2, и данные не будут считываться последовательно! Это ограничение этой библиотеки?

При чтении PDF-файла с использованием PYPDF2 вот синтаксис: with open("Sample_data.pdf", 'rb') as PDFfile: reader = p2.PdfFileReader(PDFfile) print(reader.getDocumentInfo()) page1 = reader.getPage(0) print(page1.getContents()) text = page1.extractTe…

pypdf text-extraction pypdf2 pdf-scraping python-pdfreader

06 июл '21 в 10:29

1 ответ

Преобразование .pdf в .docx в API служб Adobe pdf (с использованием Python)

Я пытаюсь (пока 2 дня) написать программу на Python, конвертирующую файлы «.pdf» в «.docx» , используя API сервера Adobe pdf (бесплатная пробная версия). Я нашел литературу, позволяющую преобразовать любой файл ".pdf" в файл ".zip", содержащий файлы…

python pdf python-docx python-pdfreader adobe-pdfservices

08 июл '21 в 18:04

0 ответов

Python читает текст pdf с онлайн-сайта

До сих пор у меня был большой успех, беря текст из загруженного pdf через: import fitz with fitz.open("XYZ.pdf") as doc: text = "" for page in doc: text += page.getText() Я хочу пропустить этап сохранения, кто-нибудь знает, как я могу прочитать текс…

python pdf beautifulsoup python-requests python-pdfreader

22 июл '21 в 05:22

1 ответ

Случайно поврежденные файлы pdf при использовании requests.get () с Python для загрузки pdf

Спасибо, что прочитали мой пост. У меня есть список URL-адресов для файлов PDF. for eachurl in url_list: print(eachurl) Ниже приведены ссылки на мои PDF-файлы: https://www.sec.gov/Archives/edgar/data/1005757/999999999715000035/filename1.pdf https://…

python pdf python-requests python-pdfreader

24 авг '21 в 17:55