Описание тега python-pdfreader
Python API для анализа документов PDF, извлечения текстов (простых и отформатированных), изображений, XObjects, форм и других данных. Обеспечивает прямой доступ ко всем атрибутам объекта и истории объекта. Соответствует спецификации PDF 1.7.
0
ответов
Я не получаю нужный текст из метода извлечения текста PyPDF2
На первой странице моего PDF-файла указаны имя и дата рождения кандидата в этом формате. Я использую следующий код для извлечения информации в python import PyPDF2 pFile = open('MMout.pdf','rb') pdfReadr = PyPDF2.PdfFileReader(pFile) pageObj = pdfRe…
20 июл '20 в 05:28
2
ответа
Документ PDF: как проверить цифровую подпись с помощью Python?
Мы делаем проект RPA и извлекаем PDF-файл данных, чтобы превзойти его, используя python. Теперь нам нужно проверить цифровую подпись в PDF.
28 ноя '19 в 15:34
1
ответ
Нужна помощь в импорте данных из pdfplumber в файл .csv
Я использовал pdfplumber для извлечения текста из PDF-файлов, но когда я попытался импортировать данные, используя to_csv, выдает #me ошибку. Нужна помощь в импорте данных в CSV import pdfplumber import pandas as pd import numpy as np import os impo…
16 мар '20 в 10:31
1
ответ
Как сохранить PDF в базе данных MySQL без создания файла PDF в Python
Итак, в основном у меня есть данные PDF в кодировке base64 в базе данных MySQL, и я хочу манипулировать этими данными (обновлять поля формы данных файла PDF), после этого без создания / записи файла PDF, я хочу сохранить эти обработанные / обновленн…
29 апр '20 в 21:27
0
ответов
прочитать дату с помощью pdfminer3 в python
Я пытаюсь автоматически извлечь дату, которая стоит после слова "дата" в PDF-файле. Я попробовал код, предложенный ЛаВаром в этом ответе: Как использовать PDFminer.six с python 3? Это работает очень хорошо, и я получаю текстовую строку документа. К …
26 май '20 в 14:02
3
ответа
Django открывает pdf на определенном номере страницы
Я пытаюсь создать веб-приложение для анализа PDF-файлов и застрял. Я хочу разрешить пользователю открывать определенную страницу PDF-файла, содержащую более 300 страниц. Итак, может ли кто-нибудь сказать мне, как использовать Django, чтобы открыть P…
17 июл '20 в 19:01
0
ответов
Как мы можем создать пустой PDF-файл с помощью pypdf2?
import PyPDF2 writer = PyPDF2.PdfFileWriter() writer.addBlankPage(219, 297) with open (r"C:\\Users\\Aditya\\.spyder-py3\\scripting in python\\sample pdf with python\\mergedpdf.pdf","wb") as file: writer.write(file) file.close() н…
08 авг '20 в 20:51
1
ответ
Как прочитать данные из PDF-файла банковской выписки в Python?
Мне нужно прочитать данные из PDF-файла банковской выписки, который содержит текст и таблицу. Я пробовал некоторые решения, предоставляемые через переполнение стека, но для большинства из них возникали ошибки. Из многих следующий код работал у меня,…
29 июн '20 в 10:44
2
ответа
Python не печатает PDF с помощью pyPDF2
Я пробовал распечатать страницы документа pdf: import PyPDF2 FILE_PATH = 'my.pdf' with open(FILE_PATH, mode='rb') as f: reader = PyPDF2.PdfFileReader(f) page = reader.getPage(0) # I tried also other pages e.g 1,2,.. print(page.extractText()) Но я по…
21 апр '20 в 22:58
1
ответ
не могу использовать PyPDF2, чтобы открыть PDF-файл на ноутбуке jupyter
Я попытался открыть файл pdf, который я загрузил с уже установленным модулем PyPDF2, вот так: import PyPDF2 pdfFileObj = open('ssopenpyxl-readthedocs-io-en-latest.pdf', 'rb') pdfReader = PyPDF2.PdfFileReader(pdfFileObj) pdfReader.numPages и он дал м…
18 окт '20 в 05:39
1
ответ
pdfplumber дает fp.seek(pos) AttributeError: объект 'dict' не имеет атрибута 'seek'
Итак, это мой код: def main(): import combinedparser as cp from tkinter.filedialog import askopenfilenames files = askopenfilenames() print(files) #this gives the right files as a list of strings composed of path+filename def file_discriminator(func…
22 сен '20 в 10:19
0
ответов
Reportlab: Вставить PDF и сдвинуть вниз
В настоящее время я вставляю PDF-файл в другой как изображение, что отлично работает, за исключением того, что мне нужно сместить вставленный PDF-файл вниз на 1 дюйм (и обрезать 1 дюйм от дна). Вот что я сейчас делаю: from reportlab.pdfgen.canvas im…
19 окт '20 в 18:41
1
ответ
Поля «Создано» и «Изменено» в свойствах документа (PDF) не отображались.
В настоящее время я объединил несколько PDF-файлов вместе, чтобы создать один PDF-файл. Я добавил информацию о метаданных, которая включает два поля «Создано» и «Изменено», но в результате эти поля по-прежнему не отображают информацию. Вот мой исход…
03 фев '21 в 15:17
1
ответ
Как просмотреть PDF-файл, созданный в Databricks
Я попытался создать образец файла PDF, используя приведенный ниже код. Я считаю, что PDF-файл был создан, но я не могу его просмотреть. Как мне просмотреть этот PDF-файл и как его экспортировать. Я новичок в сборщиках данных. Пожалуйста, помогите на…
18 фев '21 в 18:53
0
ответов
PyPDF2 возвращает ошибки, когда я передаю ему файл
Я изучаю Python и написал этот проект, так как он мне показался интересным и мне нужна помощь. Часть кода я написал сам, а часть - исследуя модули, когда они мне нужны. Ссылка для моего кода Пожалуйста, помогите мне завершить проект. Ошибки у меня е…
09 май '21 в 11:10
1
ответ
Сравнение ключевых слов с файлами PDF
Вот программа, которая вызывает файлы по имени папки и извлекает данные. Теперь я хочу сравнить данные с ключевыми словами, которые я использовал в программе ниже. Но это дает мне: pdfReader = pdfFileObj.loadPage(0) AttributeError: '_io.BufferedRead…
24 июн '21 в 10:42
0
ответов
Очистка PDF с помощью PyPDF2, и данные не будут считываться последовательно! Это ограничение этой библиотеки?
При чтении PDF-файла с использованием PYPDF2 вот синтаксис: with open("Sample_data.pdf", 'rb') as PDFfile: reader = p2.PdfFileReader(PDFfile) print(reader.getDocumentInfo()) page1 = reader.getPage(0) print(page1.getContents()) text = page1.extractTe…
06 июл '21 в 10:29
1
ответ
Преобразование .pdf в .docx в API служб Adobe pdf (с использованием Python)
Я пытаюсь (пока 2 дня) написать программу на Python, конвертирующую файлы «.pdf» в «.docx» , используя API сервера Adobe pdf (бесплатная пробная версия). Я нашел литературу, позволяющую преобразовать любой файл ".pdf" в файл ".zip", содержащий файлы…
08 июл '21 в 18:04
0
ответов
Python читает текст pdf с онлайн-сайта
До сих пор у меня был большой успех, беря текст из загруженного pdf через: import fitz with fitz.open("XYZ.pdf") as doc: text = "" for page in doc: text += page.getText() Я хочу пропустить этап сохранения, кто-нибудь знает, как я могу прочитать текс…
22 июл '21 в 05:22
1
ответ
Случайно поврежденные файлы pdf при использовании requests.get () с Python для загрузки pdf
Спасибо, что прочитали мой пост. У меня есть список URL-адресов для файлов PDF. for eachurl in url_list: print(eachurl) Ниже приведены ссылки на мои PDF-файлы: https://www.sec.gov/Archives/edgar/data/1005757/999999999715000035/filename1.pdf https://…
24 авг '21 в 17:55