Описание тега pdfminer
Инструмент на основе Python для извлечения информации из документов PDF.
3
ответа
Предупреждения на pdfminer
Я нашел и (немного) изменил этот скрипт в stackru, чтобы он работал на python 3.3: from pdfminer.pdfinterp import PDFResourceManager, process_pdf from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from io import String…
21 апр '15 в 04:05
1
ответ
Декодировать коды шрифтов CID в эквивалентные символы ASCII
Я пытаюсь добыть какой-нибудь текст из нескольких PDF-файлов, и в некоторых из них есть встроенные шрифты CID: (cid:80)(cid:72)(cid:87)(cid:68)(cid:70)(cid:76)(cid:87)(cid:76)(cid:72)(cid:86)(cid:3) (cid:177)(cid:3)(cid:71)(cid:72)(cid:191)(cid:81)(…
06 июн '14 в 19:24
3
ответа
Как обнаружить повернутую страницу в документе PDF на Python?
Для документа PDF с несколькими страницами, как проверить, поворачивается ли данная страница (-90, 90 или 180º)? Предпочтительнее использовать Python (pdfminer, pyPDF) ... ОБНОВЛЕНИЕ: страницы сканируются, и большая часть страницы состоит из текста.
29 дек '15 в 17:11
1
ответ
PDFMiner - экспорт страниц в виде списка строк
Я хочу экспортировать текст из PDF в виде списка строк, где список представляет собой весь документ, а строки - это страницы PDF. Я использую PDFMiner для этой задачи, но это очень сложно, и я в сжатые сроки. До сих пор я получил код для извлечения …
30 янв '15 в 23:11
4
ответа
Читайте PDF постранично
Я искал свой вопрос и не получил ответ на два доступных вопроса Извлечь текст на страницу с помощью Python pdfMiner? PDFMiner - перебирая страницы и переводя их в текст В основном я хочу перебирать каждую страницу, потому что я хочу выбрать только т…
04 янв '16 в 13:00
3
ответа
Python pdfminer extract image производит несколько изображений на странице (должно быть одно изображение)
Я пытаюсь извлечь изображения, которые находятся в PDF. Файл, с которым я работаю, имеет 2+ страницы. Страница 1 - это текст, а страницы 2-n - это изображения (по одному на страницу, или это может быть одно изображение, охватывающее несколько страни…
11 июл '16 в 22:41
0
ответов
Tabula-py не может найти файл PDF
Хочу разобрать файл PDF с помощью pdfminer и tabula Я прочитал этот вопрос, и я использую этот код: из pdfminer.pdfparser импорт PDFParser из pdfminer.pdfdocument импорт PDFDocument import magic from pyPdf import PdfFileWriter, PdfFileReader import …
02 авг '18 в 11:15
1
ответ
Что я должен использовать как кусок кода для запуска PDFMiner 3k?
Я хочу использовать PDFMiner 3k, я использую python 3.3.3 для Windows, я не знаю, какие инструкции написать для использования PFDMiner 3k, я пробовал много кодов и до сих пор не работает, некоторые из них были для PDFMiner (Python 2.7), например, я …
20 апр '15 в 09:26
0
ответов
Зачистка общедоступного веб-сайта PDF для данных в таблице с помощью Python3
Я новичок в Python, и меня попросили выяснить, как очистить общедоступный PDF-файл веб-сайта для информации, чтобы сохранить ее в базе данных NoSQL как можно скорее. Я успешно вытащил данные с одной из страниц с кодом ниже: import io import PyPDF2 i…
09 мар '18 в 15:59
1
ответ
Значения из атрибута экземпляра класса, добавляемого к другому экземпляру того же класса
Я анализирую PDF для извлечения данных таблицы, используя мой класс PdfTable. Когда я создаю экземпляр класса, затем создаю другой экземпляр класса, создается впечатление, что первый экземпляр класса file_1.cells добавляется перед вторым экземпляром…
12 ноя '16 в 22:42
1
ответ
Как читать эту PDF-форму, используя PyPDF2 в Python
https://www.fda.gov/downloads/AboutFDA/ReportsManualsForms/Forms/UCM074728.pdf Я пытаюсь прочитать этот PDF-файл, используя PyPDF2 или Pdfminer, но он говорит, что файл не был расшифрован в Pypdf2, а в pdfminer, он говорит, что он может распаковать…
13 апр '18 в 18:07
0
ответов
pdfminer3k выводит другой текст для одного файла PDF
Я использую pdfminer3k(Python 3.6.1::Anaconda 4.4.0 (64-bit); система Windows 10) для извлечения текстового содержимого в моих файлах pdf. Код выглядит следующим образом: from pdfminer.pdfparser import PDFParser, PDFDocument from pdfminer.pdfinterp …
30 май '18 в 07:17
1
ответ
Как использовать pdfMiner в python для предсказуемого чтения значений
Я использовал pdfMiner для считывания значений с графиков, и до сих пор он работал отлично! Однако есть одна область, в которой правильные данные читаются правильно, но непредсказуемым образом, что означает, что они будут правильно читать все значен…
03 дек '14 в 06:58
0
ответов
Получение неожиданного EOF с Python PDFMiner при создании объекта документа
Я пытаюсь проанализировать PDF-файл в каталоге, используя PDFMiner, и я начинаю с репликации первого скрипта из документации, содержащейся здесь. Код (повторяется ниже) открывает файл и создает объект синтаксического анализатора, но выдает ошибку "Н…
05 май '15 в 14:28
0
ответов
Считайте файл pdf в текстовый файл на python 3, но он генерирует ошибку, подобную AttributeError: у объекта 'PDFObjRef' нет атрибута 'decode'. Помогите плз
Чтение pdf-файла для извлечения текста в python3 с использованием библиотеки pdfminer (я установил пакет с помощью pip install pdfminer.six) import io from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter impo…
23 май '18 в 08:33
3
ответа
Как установить пакет binstar в Анаконде?
Мне не удалось установить - pdfminer- используя дистрибутив исходного кода, поэтому я пытался использовать binstar для этого. Поскольку я использую дистрибутив Python от Ananconda, я набираю: conda install -c https://conda.binstar.org/jacksongs pdfm…
20 ноя '14 в 02:24
1
ответ
PDFQuery + файлы на сервере
Я пытаюсь найти текстовую строку, скажем, "может быть", в документе, который находится на " https://developer.apple.com/library/ios/documentation/ides/conceptual/AppDistributionGuide/AppDistributionGuide.pdf". Для этого я использую PDFQuery. Первона…
29 ноя '14 в 11:31
1
ответ
Как получить доступ к существующей (!) Матрице, которая частично содержит неверный синтаксис?
Я использую pdfminer для преобразования pdf-текста в txt. Pdfminer просматривает pdf-файл и читает его построчно. Каждая строка присваивается матричной переменной. Проблема в том, что по некоторым причинам в редких случаях матрица, например, для x =…
19 янв '15 в 13:07
0
ответов
Есть ли код, который позволяет мне использовать координаты для извлечения текста из региона в PDF?
Я пытаюсь извлечь некоторый текст из определенной области в PDF. Всего в PDF 10 разделов, и я хочу извлечь все под заголовком Раздела 8. У меня есть следующий код, который будет извлекать ВСЕ текст в PDF и давать мне его координаты, но я не знаю, ка…
27 дек '18 в 19:15
3
ответа
Я получаю синтаксическую ошибку в своем операторе IF, не знаете почему?
Я пытаюсь запустить следующий код в Python 3.7. Я продолжаю получать неверную синтаксическую ошибку и не уверен, почему, кто-то может определить, что я делаю неправильно? Отступ, кажется, в порядке, мои "Отпечатки" заключены в правильные скобки, я в…
28 дек '18 в 14:31