Библиотека Pure-Python, созданная как набор инструментов PDF.
3 ответа

Как обнаружить повернутую страницу в документе PDF на Python?

Для документа PDF с несколькими страницами, как проверить, поворачивается ли данная страница (-90, 90 или 180º)? Предпочтительнее использовать Python (pdfminer, pyPDF) ... ОБНОВЛЕНИЕ: страницы сканируются, и большая часть страницы состоит из текста.
29 дек '15 в 17:11
1 ответ

Python pyPdf выпуск загрузки pdf

Я с трудом читаю pdf из интернета в объект python PdfFileReader. Мой код работает для первого URL, но не для второго, и я не знаю, как это исправить. Я вижу, что в первом примере url ссылается на файл.pdf, а во втором url pdf возвращается как "данны…
08 фев '18 в 15:31
4 ответа

Читайте PDF постранично

Я искал свой вопрос и не получил ответ на два доступных вопроса Извлечь текст на страницу с помощью Python pdfMiner? PDFMiner - перебирая страницы и переводя их в текст В основном я хочу перебирать каждую страницу, потому что я хочу выбрать только т…
04 янв '16 в 13:00
1 ответ

Ошибка слияния PyPdf

Когда я объединяю несколько страниц PDF, используя PyPdf, в одну страницу, используя mergeTranslatedPageУ меня есть некоторые неизвестные символы, эти неизвестные квадраты являются символами, не включенными в последнюю объединенную страницу, после н…
08 окт '12 в 12:41
1 ответ

pyPdf: незаконный суррогат UTF-16

У меня есть файл PDF, который ломает pyPdf: http://tovotu.de/tests/test.pdf Это пример сценария: from pyPdf import PdfFileWriter, PdfFileReader outputPdf = PdfFileWriter() inpdf = open("test.pdf","rb") inputPdf = PdfFileReader(inpdf) [outputPdf.addP…
28 мар '13 в 02:41
4 ответа

Как закрыть дескриптор файла класса pyPDF "PdfFileReader"

Это должен быть очень простой вопрос, на который я не смог найти ответ с помощью поиска Google: Как закрыть дескриптор файла, открытый классом pPFF "PdfFileReader" Вот фрагмент: import os.path from pyPdf import PdfFileReader fname = 'my.pdf' input =…
12 дек '10 в 15:09
1 ответ

Как редактировать файл pdf, заменяя его данные?

Я пытаюсь повернуть страницы в PDF-файл, а затем заменить старые страницы на повернутые в одном и том же PDF-файле. Я написал следующий код: #!/usr/bin/python import os from pyPdf import PdfFileReader, PdfFileWriter my_path = "/home/USER/Desktop/fil…
23 фев '15 в 17:30
1 ответ

Как получить pypdf для чтения содержимого страницы построчно?

У меня есть PDF, в котором каждая страница содержит адрес. Адреса в этом формате: Location Name Street Address City, State Zip например: The Gift Store 620 Broadway Street Van Buren, AR 72956 Каждый адрес только в этом формате, и каждый находится на…
17 мар '13 в 10:35
2 ответа

Какую программу написать PDF, включая другие PDF на Linux из Python?

На сервере Ubuntu я хочу создать PDF-файлы, которые включают другие статические PDF-файлы. Я пытался использовать ReportLab с pyPdf. В идеале я бы использовал ReportLab, чтобы сделать все это, но для импорта PDF-файлов требуется их PageCatcher, кото…
15 янв '10 в 13:19
2 ответа

Маркер EOF не найден - Как исправить в PyPDF и PyPDF2?

Я пытаюсь объединить несколько файлов PDF в один файл PDF, используя Python. Я пробовал оба PyPDF и PyPDF2 - на некоторых файлах они оба выдают одну и ту же ошибку: PdfReadError: маркер EOF не найден Вот мой код (page_files) - список путей к файлам …
23 апр '13 в 06:30
1 ответ

python pypdf читать pdf и выделять слова

Как использовать Python Pypdf для чтения PDF и получить выделенные слова? Я выделил неизвестные слова в PDF и хочу извлечь их для последующего использования.
16 май '11 в 06:37
2 ответа

Python, pyPdf, ошибка распознавания Adobe PDF: неподдерживаемый фильтр /lzwdecode

Мои вещи: python 2.6 64 bit (с установленным pyPdf-1.13.win32.exe). Крыло IDE. Windows 7 64 бит. Я получил следующую ошибку: NotImplementedError: неподдерживаемый фильтр /LZWDecode Когда я запустил следующий код: from pyPdf import PdfFileWriter, Pdf…
19 май '11 в 02:13
2 ответа

Как извлечь язык из документа PDF

Я пытаюсь извлечь язык из любого общего документа PDF и установить его в CMS с помощью Python. Я пытаюсь извлечь его с помощью атрибута /Lang, вот пример кода: pdfFileLang = findInDict('/Lang',pdfFile.resolvedObjects()) def findInDict(needle,indirec…
09 май '14 в 06:43
0 ответов

Чтение строки в PDF с использованием Python

Я пытаюсь написать программу, которая дает матрицу трассировки для требования -code- Test для которого я не могу читать теги требований из PDF построчно из PDF. Ниже программа, которую я попробовал. import os, sys, time import sys import glob import…
06 янв '17 в 14:19
3 ответа

Python - создать многослойный PDF

Есть ли способ использовать Python для создания нескольких слоев PDF. Но не слияние. Я думаю, что многослойность PDF означает, что на странице более одного слоя, и я могу выбрать, какой слой показывать в Acrobat. Вот документ, который я нахожу о мно…
04 дек '15 в 21:40
3 ответа

PdfFileReader: PdfReadError: Не удалось найти таблицу внешних ссылок в указанном месте

Я пытаюсь прочитать PDF-файл в Python через: from PyPDF2 import PdfFileReader, PdfFileWriter test_reader = PdfFileReader(file("test.pdf", "rb")) Выше строки выдает ошибку: PyPDF2.utils.PdfReadError: Could not find xref table at specified location Лю…
05 дек '15 в 12:20
1 ответ

PDFQuery + файлы на сервере

Я пытаюсь найти текстовую строку, скажем, "может быть", в документе, который находится на " https://developer.apple.com/library/ios/documentation/ides/conceptual/AppDistributionGuide/AppDistributionGuide.pdf". Для этого я использую PDFQuery. Первона…
29 ноя '14 в 11:31
1 ответ

Портирование на Python3: PyPDF2 mergePage() дает TypeError

Я использую Python 3.4.2 и PyPDF2 1.24 (также использую reportlab 3.1.44 в случае, если это помогает) в Windows 7. Я недавно обновился с Python 2.7 до 3.4, и я в процессе переноса своего кода. Этот код используется для создания пустой страницы PDF с…
15 янв '15 в 22:45
1 ответ

Ошибка в кодировании символов при чтении PDF

Мне нужно прочитать этот PDF. Я использую следующий код: from PyPDF2 import PdfFileReader f = open('myfile.pdf', 'rb') reader = PdfFileReader(f) content = reader.getPage(0).extractText() f.close() content = ' '.join(content.replace('\xa0', ' ').stri…
12 ноя '15 в 04:52
2 ответа

Функция extractText() в pyPDF2 выдает ошибку

Я пытаюсь извлечь текст из PDF-файлов, чтобы я мог проанализировать его, но когда я пытаюсь извлечь текст со страницы, я получаю следующую ошибку. Traceback (most recent call last): File "C:\Program Files (x86)\eclipse\plugins\org.python.pydev_2.7.4…
01 июн '13 в 21:35