Описание тега pypdf
Библиотека Pure-Python, созданная как набор инструментов PDF.
3
ответа
Как обнаружить повернутую страницу в документе PDF на Python?
Для документа PDF с несколькими страницами, как проверить, поворачивается ли данная страница (-90, 90 или 180º)? Предпочтительнее использовать Python (pdfminer, pyPDF) ... ОБНОВЛЕНИЕ: страницы сканируются, и большая часть страницы состоит из текста.
29 дек '15 в 17:11
1
ответ
Python pyPdf выпуск загрузки pdf
Я с трудом читаю pdf из интернета в объект python PdfFileReader. Мой код работает для первого URL, но не для второго, и я не знаю, как это исправить. Я вижу, что в первом примере url ссылается на файл.pdf, а во втором url pdf возвращается как "данны…
08 фев '18 в 15:31
4
ответа
Читайте PDF постранично
Я искал свой вопрос и не получил ответ на два доступных вопроса Извлечь текст на страницу с помощью Python pdfMiner? PDFMiner - перебирая страницы и переводя их в текст В основном я хочу перебирать каждую страницу, потому что я хочу выбрать только т…
04 янв '16 в 13:00
1
ответ
Ошибка слияния PyPdf
Когда я объединяю несколько страниц PDF, используя PyPdf, в одну страницу, используя mergeTranslatedPageУ меня есть некоторые неизвестные символы, эти неизвестные квадраты являются символами, не включенными в последнюю объединенную страницу, после н…
08 окт '12 в 12:41
1
ответ
pyPdf: незаконный суррогат UTF-16
У меня есть файл PDF, который ломает pyPdf: http://tovotu.de/tests/test.pdf Это пример сценария: from pyPdf import PdfFileWriter, PdfFileReader outputPdf = PdfFileWriter() inpdf = open("test.pdf","rb") inputPdf = PdfFileReader(inpdf) [outputPdf.addP…
28 мар '13 в 02:41
4
ответа
Как закрыть дескриптор файла класса pyPDF "PdfFileReader"
Это должен быть очень простой вопрос, на который я не смог найти ответ с помощью поиска Google: Как закрыть дескриптор файла, открытый классом pPFF "PdfFileReader" Вот фрагмент: import os.path from pyPdf import PdfFileReader fname = 'my.pdf' input =…
12 дек '10 в 15:09
1
ответ
Как редактировать файл pdf, заменяя его данные?
Я пытаюсь повернуть страницы в PDF-файл, а затем заменить старые страницы на повернутые в одном и том же PDF-файле. Я написал следующий код: #!/usr/bin/python import os from pyPdf import PdfFileReader, PdfFileWriter my_path = "/home/USER/Desktop/fil…
23 фев '15 в 17:30
1
ответ
Как получить pypdf для чтения содержимого страницы построчно?
У меня есть PDF, в котором каждая страница содержит адрес. Адреса в этом формате: Location Name Street Address City, State Zip например: The Gift Store 620 Broadway Street Van Buren, AR 72956 Каждый адрес только в этом формате, и каждый находится на…
17 мар '13 в 10:35
2
ответа
Какую программу написать PDF, включая другие PDF на Linux из Python?
На сервере Ubuntu я хочу создать PDF-файлы, которые включают другие статические PDF-файлы. Я пытался использовать ReportLab с pyPdf. В идеале я бы использовал ReportLab, чтобы сделать все это, но для импорта PDF-файлов требуется их PageCatcher, кото…
15 янв '10 в 13:19
2
ответа
Маркер EOF не найден - Как исправить в PyPDF и PyPDF2?
Я пытаюсь объединить несколько файлов PDF в один файл PDF, используя Python. Я пробовал оба PyPDF и PyPDF2 - на некоторых файлах они оба выдают одну и ту же ошибку: PdfReadError: маркер EOF не найден Вот мой код (page_files) - список путей к файлам …
23 апр '13 в 06:30
1
ответ
python pypdf читать pdf и выделять слова
Как использовать Python Pypdf для чтения PDF и получить выделенные слова? Я выделил неизвестные слова в PDF и хочу извлечь их для последующего использования.
16 май '11 в 06:37
2
ответа
Python, pyPdf, ошибка распознавания Adobe PDF: неподдерживаемый фильтр /lzwdecode
Мои вещи: python 2.6 64 bit (с установленным pyPdf-1.13.win32.exe). Крыло IDE. Windows 7 64 бит. Я получил следующую ошибку: NotImplementedError: неподдерживаемый фильтр /LZWDecode Когда я запустил следующий код: from pyPdf import PdfFileWriter, Pdf…
19 май '11 в 02:13
2
ответа
Как извлечь язык из документа PDF
Я пытаюсь извлечь язык из любого общего документа PDF и установить его в CMS с помощью Python. Я пытаюсь извлечь его с помощью атрибута /Lang, вот пример кода: pdfFileLang = findInDict('/Lang',pdfFile.resolvedObjects()) def findInDict(needle,indirec…
09 май '14 в 06:43
0
ответов
Чтение строки в PDF с использованием Python
Я пытаюсь написать программу, которая дает матрицу трассировки для требования -code- Test для которого я не могу читать теги требований из PDF построчно из PDF. Ниже программа, которую я попробовал. import os, sys, time import sys import glob import…
06 янв '17 в 14:19
3
ответа
Python - создать многослойный PDF
Есть ли способ использовать Python для создания нескольких слоев PDF. Но не слияние. Я думаю, что многослойность PDF означает, что на странице более одного слоя, и я могу выбрать, какой слой показывать в Acrobat. Вот документ, который я нахожу о мно…
04 дек '15 в 21:40
3
ответа
PdfFileReader: PdfReadError: Не удалось найти таблицу внешних ссылок в указанном месте
Я пытаюсь прочитать PDF-файл в Python через: from PyPDF2 import PdfFileReader, PdfFileWriter test_reader = PdfFileReader(file("test.pdf", "rb")) Выше строки выдает ошибку: PyPDF2.utils.PdfReadError: Could not find xref table at specified location Лю…
05 дек '15 в 12:20
1
ответ
PDFQuery + файлы на сервере
Я пытаюсь найти текстовую строку, скажем, "может быть", в документе, который находится на " https://developer.apple.com/library/ios/documentation/ides/conceptual/AppDistributionGuide/AppDistributionGuide.pdf". Для этого я использую PDFQuery. Первона…
29 ноя '14 в 11:31
1
ответ
Портирование на Python3: PyPDF2 mergePage() дает TypeError
Я использую Python 3.4.2 и PyPDF2 1.24 (также использую reportlab 3.1.44 в случае, если это помогает) в Windows 7. Я недавно обновился с Python 2.7 до 3.4, и я в процессе переноса своего кода. Этот код используется для создания пустой страницы PDF с…
15 янв '15 в 22:45
1
ответ
Ошибка в кодировании символов при чтении PDF
Мне нужно прочитать этот PDF. Я использую следующий код: from PyPDF2 import PdfFileReader f = open('myfile.pdf', 'rb') reader = PdfFileReader(f) content = reader.getPage(0).extractText() f.close() content = ' '.join(content.replace('\xa0', ' ').stri…
12 ноя '15 в 04:52
2
ответа
Функция extractText() в pyPDF2 выдает ошибку
Я пытаюсь извлечь текст из PDF-файлов, чтобы я мог проанализировать его, но когда я пытаюсь извлечь текст со страницы, я получаю следующую ошибку. Traceback (most recent call last): File "C:\Program Files (x86)\eclipse\plugins\org.python.pydev_2.7.4…
01 июн '13 в 21:35