Описание тега pdfminer

Описание тега Вопросы с тегом

Инструмент на основе Python для извлечения информации из документов PDF.

3 ответа

Предупреждения на pdfminer

Я нашел и (немного) изменил этот скрипт в stackru, чтобы он работал на python 3.3: from pdfminer.pdfinterp import PDFResourceManager, process_pdf from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from io import String…

21 апр '15 в 04:05

1 ответ

Декодировать коды шрифтов CID в эквивалентные символы ASCII

Я пытаюсь добыть какой-нибудь текст из нескольких PDF-файлов, и в некоторых из них есть встроенные шрифты CID: (cid:80)(cid:72)(cid:87)(cid:68)(cid:70)(cid:76)(cid:87)(cid:76)(cid:72)(cid:86)(cid:3) (cid:177)(cid:3)(cid:71)(cid:72)(cid:191)(cid:81)(…

python fonts pdfminer

06 июн '14 в 19:24

3 ответа

Как обнаружить повернутую страницу в документе PDF на Python?

Для документа PDF с несколькими страницами, как проверить, поворачивается ли данная страница (-90, 90 или 180º)? Предпочтительнее использовать Python (pdfminer, pyPDF) ... ОБНОВЛЕНИЕ: страницы сканируются, и большая часть страницы состоит из текста.

python pdf image-processing pypdf pdfminer

29 дек '15 в 17:11

1 ответ

PDFMiner - экспорт страниц в виде списка строк

Я хочу экспортировать текст из PDF в виде списка строк, где список представляет собой весь документ, а строки - это страницы PDF. Я использую PDFMiner для этой задачи, но это очень сложно, и я в сжатые сроки. До сих пор я получил код для извлечения …

python pdf pdfminer

30 янв '15 в 23:11

4 ответа

Читайте PDF постранично

Я искал свой вопрос и не получил ответ на два доступных вопроса Извлечь текст на страницу с помощью Python pdfMiner? PDFMiner - перебирая страницы и переводя их в текст В основном я хочу перебирать каждую страницу, потому что я хочу выбрать только т…

python python-2.7 pdf pypdf pdfminer

04 янв '16 в 13:00

3 ответа

Python pdfminer extract image производит несколько изображений на странице (должно быть одно изображение)

Я пытаюсь извлечь изображения, которые находятся в PDF. Файл, с которым я работаю, имеет 2+ страницы. Страница 1 - это текст, а страницы 2-n - это изображения (по одному на страницу, или это может быть одно изображение, охватывающее несколько страни…

python-2.7 pdfminer

11 июл '16 в 22:41

0 ответов

Tabula-py не может найти файл PDF

Хочу разобрать файл PDF с помощью pdfminer и tabula Я прочитал этот вопрос, и я использую этот код: из pdfminer.pdfparser импорт PDFParser из pdfminer.pdfdocument импорт PDFDocument import magic from pyPdf import PdfFileWriter, PdfFileReader import …

python python-2.7 pdf pdfminer tabula

02 авг '18 в 11:15

1 ответ

Что я должен использовать как кусок кода для запуска PDFMiner 3k?

Я хочу использовать PDFMiner 3k, я использую python 3.3.3 для Windows, я не знаю, какие инструкции написать для использования PFDMiner 3k, я пробовал много кодов и до сих пор не работает, некоторые из них были для PDFMiner (Python 2.7), например, я …

python hash nlp pypi pdfminer

20 апр '15 в 09:26

0 ответов

Зачистка общедоступного веб-сайта PDF для данных в таблице с помощью Python3

Я новичок в Python, и меня попросили выяснить, как очистить общедоступный PDF-файл веб-сайта для информации, чтобы сохранить ее в базе данных NoSQL как можно скорее. Я успешно вытащил данные с одной из страниц с кодом ниже: import io import PyPDF2 i…

python python-3.x web-scraping pypdf2 pdfminer

09 мар '18 в 15:59

1 ответ

Значения из атрибута экземпляра класса, добавляемого к другому экземпляру того же класса

Я анализирую PDF для извлечения данных таблицы, используя мой класс PdfTable. Когда я создаю экземпляр класса, затем создаю другой экземпляр класса, создается впечатление, что первый экземпляр класса file_1.cells добавляется перед вторым экземпляром…

python pdfminer

12 ноя '16 в 22:42

1 ответ

Как читать эту PDF-форму, используя PyPDF2 в Python

https://www.fda.gov/downloads/AboutFDA/ReportsManualsForms/Forms/UCM074728.pdf Я пытаюсь прочитать этот PDF-файл, используя PyPDF2 или Pdfminer, но он говорит, что файл не был расшифрован в Pypdf2, а в pdfminer, он говорит, что он может распаковать…

python pypdf2 pdfminer poppler

13 апр '18 в 18:07

0 ответов

pdfminer3k выводит другой текст для одного файла PDF

Я использую pdfminer3k(Python 3.6.1::Anaconda 4.4.0 (64-bit); система Windows 10) для извлечения текстового содержимого в моих файлах pdf. Код выглядит следующим образом: from pdfminer.pdfparser import PDFParser, PDFDocument from pdfminer.pdfinterp …

python-3.x pdf pyinstaller pdfminer

30 май '18 в 07:17

1 ответ

Как использовать pdfMiner в python для предсказуемого чтения значений

Я использовал pdfMiner для считывания значений с графиков, и до сих пор он работал отлично! Однако есть одна область, в которой правильные данные читаются правильно, но непредсказуемым образом, что означает, что они будут правильно читать все значен…

python pdfminer pdf-manipulation

03 дек '14 в 06:58

0 ответов

Получение неожиданного EOF с Python PDFMiner при создании объекта документа

Я пытаюсь проанализировать PDF-файл в каталоге, используя PDFMiner, и я начинаю с репликации первого скрипта из документации, содержащейся здесь. Код (повторяется ниже) открывает файл и создает объект синтаксического анализатора, но выдает ошибку "Н…

python eof pdfminer

05 май '15 в 14:28

0 ответов

Считайте файл pdf в текстовый файл на python 3, но он генерирует ошибку, подобную AttributeError: у объекта 'PDFObjRef' нет атрибута 'decode'. Помогите плз

Чтение pdf-файла для извлечения текста в python3 с использованием библиотеки pdfminer (я установил пакет с помощью pip install pdfminer.six) import io from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter impo…

python pdfminer pdftotext

23 май '18 в 08:33

3 ответа

Как установить пакет binstar в Анаконде?

Мне не удалось установить - pdfminer- используя дистрибутив исходного кода, поэтому я пытался использовать binstar для этого. Поскольку я использую дистрибутив Python от Ananconda, я набираю: conda install -c https://conda.binstar.org/jacksongs pdfm…

python anaconda pdfminer binstar

20 ноя '14 в 02:24

1 ответ

PDFQuery + файлы на сервере

Я пытаюсь найти текстовую строку, скажем, "может быть", в документе, который находится на " https://developer.apple.com/library/ios/documentation/ides/conceptual/AppDistributionGuide/AppDistributionGuide.pdf". Для этого я использую PDFQuery. Первона…

python pdf pypdf pdfminer

29 ноя '14 в 11:31

1 ответ

Как получить доступ к существующей (!) Матрице, которая частично содержит неверный синтаксис?

Я использую pdfminer для преобразования pdf-текста в txt. Pdfminer просматривает pdf-файл и читает его построчно. Каждая строка присваивается матричной переменной. Проблема в том, что по некоторым причинам в редких случаях матрица, например, для x =…

python-2.7 matrix pdfminer

19 янв '15 в 13:07

0 ответов

Есть ли код, который позволяет мне использовать координаты для извлечения текста из региона в PDF?

Я пытаюсь извлечь некоторый текст из определенной области в PDF. Всего в PDF 10 разделов, и я хочу извлечь все под заголовком Раздела 8. У меня есть следующий код, который будет извлекать ВСЕ текст в PDF и давать мне его координаты, но я не знаю, ка…

python pdfminer

27 дек '18 в 19:15

3 ответа

Я получаю синтаксическую ошибку в своем операторе IF, не знаете почему?

Я пытаюсь запустить следующий код в Python 3.7. Я продолжаю получать неверную синтаксическую ошибку и не уверен, почему, кто-то может определить, что я делаю неправильно? Отступ, кажется, в порядке, мои "Отпечатки" заключены в правильные скобки, я в…

python syntax syntax-error pdfminer

28 дек '18 в 14:31