Описание тега pypdf2
PyPDF2 - это библиотека PDF на чистом Python, способная разделять, объединять, обрезать и преобразовывать страницы файлов PDF. Он также может добавлять пользовательские данные, параметры просмотра и пароли в файлы PDF. Он может извлекать текст и метаданные из PDF-файлов, а также объединять файлы целиком.
1
ответ
pypdf2 не определен
Новая версия Python 3.7. Пытаясь использовать pypdf2 но у меня есть ошибка, которую я не могу исправить самостоятельно: моя команда: pdfFile2 = open(r"C:\Users\Luca\Desktop\python\tutorial\doc2.pdf", "wb") # w=write, r=read, b=binary writer1 = pyPDF…
10 июл '18 в 21:19
1
ответ
Поиск текста, выделен он или нет
Я сейчас пытаюсь использовать PyPDF2 прочитать файл PDF в Python.Я хочу знать, выделен ли текст файла PDF или нет. Контекст: Мы используем для выделения текста в файле PDF другим цветом. Есть ли способ узнать, какой текст выделен в Python, используя…
09 авг '16 в 10:10
2
ответа
Не удается получить рабочую командную строку в командной строке для работы с подпроцессом
Мне нужно извлечь текст из PDF. Я попробовал PyPDF2, но метод textExtract возвратил зашифрованный текст, хотя PDF не зашифрован в соответствии с методом isEncrypted. Поэтому я перешел к попытке доступа к программе, которая выполняет эту работу, из к…
09 окт '18 в 23:38
3
ответа
Читать все файлы в каталоге и выводить файлы, которые содержат определенные регулярные выражения в них
Я пытаюсь прочитать все файлы в моем каталоге и вывести те, которые содержат регулярные выражения, а также то, что было регулярное выражение в каждом файле. import glob import re import PyPDF2 #-------------------------------------------------Input-…
03 дек '18 в 19:24
0
ответов
Проблема при объединении различного текста на фоновом изображении, как нескольких страниц в PDF, в Python.[Python][PyPDF2][Reportlab]
page = existing_pdf.getPage(0) page.mergePage(new_pdf.getPage(0)) output.addPage(page) page = existing_pdf.getPage(0) page.mergePage(new_pdf.getPage(1)) output.addPage(page) Здесь Существующий_pdf - это фоновое изображение в формате pdf, которое буд…
05 фев '18 в 18:56
1
ответ
Найдите файл pypdfocr config.yaml
Где я могу найти файл config.yaml для pypdfocr? В информации о выпуске pypdfocr упоминается файл конфигурации, который я могу использовать, чтобы указать, где хранятся документы OCR. Например: pypdfocr filename.pdf -f -c config.yaml где файл config.…
01 июл '16 в 16:10
1
ответ
Поиск и идентификация потоков в PDF с использованием Python
Я около недели пытался автоматизировать извлечение изображений из PDF. К сожалению, ответы, которые я нашел здесь, не помогли. Я видел несколько вариантов одного и того же кода с использованием pypdf2, все с ['/XObject'] в них, что приводит к KeyErr…
07 авг '17 в 09:10
0
ответов
Как преобразовать цветную PDF-страницу в оттенки серого (или черно-белые) в Python?
У меня есть процедура, которую я хочу автоматизировать. У меня есть ppt-файлы, которые мне нужны, чтобы показать их печатную версию моему боссу. Я помещаю это в своего рода переплет на его столе, чтобы, когда он видит слайд, я видел тот же слайд на …
05 окт '18 в 08:36
0
ответов
Расшифровка двоичного файла PDF с использованием PyPDF2
Привет, я программирую скрипт, который расшифровывает PDF с помощью словарей (на python) для школы. Я использую библиотеку PyPDF2, но у меня возникают проблемы с расшифровкой файла PDF, потому что он закодирован на латинице-1, а PyPDF2, похоже, не м…
14 ноя '16 в 16:46
3
ответа
Как установить PyPdf2 в PyCharm (Windows-64 бит)
Я хочу установить PyPdf2 в PyCharm для Windows (64 бита). Я попытался перейти в "Настройки \ Проект \ Проектный интерпретатор", затем нажав знак "+", но PyPdf2 не был найден. Я уже установил его на нормальный python2.7, перейдя к извлеченному пути P…
30 авг '16 в 14:04
2
ответа
Text Mining из PDF-файла с использованием Python
У меня есть годовой отчет компании (в формате.pdf), и я хочу получить балансовый отчет и другую связанную форму отчета годового отчета с использованием Python. я пытался с PyPDF2 lib, но он извлекает очень неструктурированный текст. там в любом случ…
01 сен '18 в 05:08
1
ответ
Есть ли способ уменьшить размер объединенных PDF-файлов с помощью PyPDF2 до минимума или уменьшить размер после объединения?
Я развернул водяной знак в существующем файле PDF, используя метод, подробно описанный в ответе на этот вопрос: Как добавить страницы PDF с помощью PyPDF2 Однако во время этого процесса слияния размер pdf по крайней мере удваивается, а часто почти в…
16 окт '18 в 17:26
0
ответов
Зачистка общедоступного веб-сайта PDF для данных в таблице с помощью Python3
Я новичок в Python, и меня попросили выяснить, как очистить общедоступный PDF-файл веб-сайта для информации, чтобы сохранить ее в базе данных NoSQL как можно скорее. Я успешно вытащил данные с одной из страниц с кодом ниже: import io import PyPDF2 i…
09 мар '18 в 15:59
1
ответ
Как читать эту PDF-форму, используя PyPDF2 в Python
https://www.fda.gov/downloads/AboutFDA/ReportsManualsForms/Forms/UCM074728.pdf Я пытаюсь прочитать этот PDF-файл, используя PyPDF2 или Pdfminer, но он говорит, что файл не был расшифрован в Pypdf2, а в pdfminer, он говорит, что он может распаковать…
13 апр '18 в 18:07
1
ответ
Проблемы с кодировкой PyPDF2
У меня возникли проблемы с определением, почему вывод не совпадает с вводом PDF при извлечении текста. И если есть какие-то хитрости, я могу это исправить, поскольку это не единичная проблема. with open(file, 'rb') as f: binary = PyPDF2.pdf.PdfFileR…
24 окт '18 в 22:36
2
ответа
Заменить определенную страницу в PDF на страницу из другого PDF в Python 3
Я использую pypdf2 для выделения текста на определенной странице в файлах PDF. Поэтому я получаю только одну страницу с выделенным текстом в качестве выходного. Теперь я хочу заменить эту страницу в исходном файле PDF. Я также попытался параметр "se…
30 ноя '17 в 05:44
0
ответов
Соедините PDF-файлы вместе
Я преобразовал два HTML-файла в PDF-файлы, и теперь я хочу соединить их в один. Я мог бы сохранить их как файлы и использовать PyPDF2, но я хотел бы избежать ненужных файловых операций. Есть идеи? pdf = PDFTemplateResponse(template='pdf1.html', requ…
28 фев '17 в 19:23
2
ответа
Как нарисовать абзац сверху вниз на холсте?
Я пытался создать PDF, используя PyPDF2 и Reprortlab. Мне нужно нарисовать плавный абзац с огромным куском текста. Проблема в том, что размер абзаца может отличаться. Я хочу, чтобы верхний левый угол (начало абзаца) абзаца был зафиксирован для всех …
26 июл '18 в 14:40
1
ответ
Чтение PDF с использованием pyPDF2 с польскими символами
Я пытаюсь использовать PyPDF2 библиотека для чтения PDF-файла, состоящего из польских символов (например, ń, ś и т. д.), но после использования extractText() функция, выходная строка не имеет польских символов. Есть ли способ по-прежнему использоват…
12 фев '18 в 15:24
0
ответов
PyPDF2 стирает файлы, когда я пытаюсь разделить
Я использую Mac OS X с python 3.6, У меня есть куча (тысячи) .pdf файлы, большинство из которых> 200 страниц, и мне нужно обрезать их до страниц 25-90. С помощью PyPDF2, следующий код кажется, что он должен работать: from PyPDF2 import PdfFileWriter…
15 ноя '18 в 09:17