Описание тега pdf-parsing

Описание тега Вопросы с тегом

Deals with extracting useful information from PDF content (for example, text or images)

1 ответ

Ошибка Python PDFMiner: "Нет /Root объект! - Это действительно PDF?"

Я получаю эту ошибку "Нет /Root объект! - Это действительно PDF?" используя мой компьютер MAC с Python 2.7 и PDFMiner версии 20110515. Файлы pdf не повреждены, потому что одна и та же программа с теми же файлами работает на моем компьютере! Также я …

26 июн '13 в 22:42

0 ответов

Простой способ извлечь содержимое Grid из PDF с помощью Java

Мне нужно проанализировать файл PDF, который содержит данные сетки. Я использую PDFBox, чтобы извлечь текст файла для анализа результата (String) позже. Но это не работает, как я ожидал, для данных Grid. Мне нужно извлечь Grid по данным Grid на стра…

java pdfbox pdf-parsing

02 мар '18 в 10:26

0 ответов

PDFplumber пароль и check_extractable

Я использую библиотеку pdfplumber для анализа pdf. Способ доступа к pdf-файлу - "pdfplumber.open(path)". Может кто-нибудь, пожалуйста, помогите мне, как передать пароль и параметры check_extractable в этом.

pdf pdf-parsing pdfpages pdfparser pdftables

22 фев '19 в 10:45

1 ответ

Нужно ли коммерческое использование GhostScript в качестве Saas для лицензии?

Я работал над проектом. В котором пользователь может загрузить PDF и конвертировать его в изображения и чтобы я использовал GhostScript dll (gsdll32.dll). Теперь в моем приложении я хочу взимать с пользователей ежемесячную подписку, чтобы я мог пред…

c# pdf open-source ghostscript pdf-parsing

09 дек '14 в 06:51

2 ответа

CGPDF<...> - где находятся сеттеры?

Есть ли способ создать объекты PDF (например, PDF-словарь с параметрами, которые нужны пользовательскому производителю PDF / потребителю / средству просмотра) с помощью CGPDF<...> или я должен написать свой собственный анализатор и создать новые тре…

ios pdf pdf-generation core-graphics pdf-parsing

19 июл '15 в 04:09

0 ответов

Как разобрать строку файла PDF из PHP?

Я хочу разобрать PDF-файл из PHP. Для этого я собрал этот код (я использовал библиотеку PDF Parser). Код: <?php // Include Composer autoloader if not already done. include 'vendor/autoload.php'; // Parse pdf file and build necessary objects. $par…

php pdf pdf-parsing

11 фев '16 в 05:15

0 ответов

Загрузка внешних пользовательских шрифтов в документы PDF с использованием pdfbox в java

Я нацеливаюсь на чтение контента с не встроенной кодировкой с использованием PDFBox. Как показано на рисунке, я могу извлечь текст из PDF для всех шрифтов с типом TrueType и Encoding Built-in. В результате я получаю субкодированный текст вместо соде…

java pdfbox custom-font pdf-parsing true-type-fonts

18 апр '17 в 05:22

1 ответ

Как использовать page.filter(test_function) в библиотеке PDFPlumber?

Я пытаюсь удалить таблицы внутри страницы pdf и пытаюсь использовать для этого функцию page.filter(), здесь у меня есть координаты bbox таблицы, и я пытаюсь сравнить, находятся ли координаты объекта внутри координат таблицы или нет. Но я не смог най…

python pdf pdf-parsing pdf-extraction

03 ноя '18 в 08:30

1 ответ

Определите и извлеките определенные разделы документа PDF

У меня есть несколько экзаменов в формате PDF. Я хочу программно извлечь каждый вопрос как отдельное изображение / документ. OCR не идеален, потому что он плохо поддерживает форматирование кода / уравнения. Конечная цель состоит в том, чтобы сделать…

python pdf ocr image-recognition pdf-parsing

07 ноя '17 в 01:54

1 ответ

Разница между версиями iTextSharp 4.1.6 и 5.x

Мы разрабатываем анализатор Pdf для использования вместе с нашей системой. Требование таково, что мы храним всю информацию в любых документах PDF и должны иметь возможность воспроизводить документ как таковой (с минимальными изменениями по сравнению…

pdf itext itextsharp licensing pdf-parsing

20 июн '14 в 11:59

1 ответ

Не удается переопределить метод PDFTextStripper.writeString (String text, List<TextPosition> textPositions) с помощью C#?

Я использую.net PdfBox для синтаксического анализа, чтобы извлечь текст из PDF вместе с расположением текста. Для этого во время поиска я нашел следующий код Java: PDFTextStripper stripper = new PDFTextStripper() { @Override protected void writeStri…

java c# pdfbox ikvm pdf-parsing

10 янв '17 в 09:13

0 ответов

Чтение строки в PDF с использованием Python

Я пытаюсь написать программу, которая дает матрицу трассировки для требования -code- Test для которого я не могу читать теги требований из PDF построчно из PDF. Ниже программа, которую я попробовал. import os, sys, time import sys import glob import…

python-2.7 parsing pdf pypdf pdf-parsing

06 янв '17 в 14:19

2 ответа

Apache PDFBox Удалить пробелы между символами

Мы используем PDFBox для извлечения текста из PDF. Некоторые PDF-текст не могут быть извлечены правильно. Следующее изображение показывает часть из PDF в виде изображения: После извлечения текста мы получаем следующий текст: 3, 8 5 EU R 1 Нетто 38,5…

pdfbox text-extraction pdf-parsing

10 апр '15 в 06:01

1 ответ

Python- PDFTables разбирает игнорирующие пробелы между столбцами

Я пытаюсь разобрать таблицы PDF с помощью библиотеки Python pdf tables. Но это объединение столбцов и игнорирование пробелов. Вот мой код: pdf_page = get_pdf_page(fileobj, page) tables = page_to_tables(pdf_page) Структура таблиц в pdf файлах: Выход:

python parsing pdf pdf-parsing

03 апр '18 в 05:46

0 ответов

Можно ли использовать qpdf API для удаления изображений из PDF-файла?

Я хотел бы создать инструмент для удаления всех изображений из файла PDF. Кажется, что библиотека qpdf с открытым исходным кодом должна уметь это делать; например, он имеет пример кода для инвертирования некоторых изображений в PDF. Но используя это…

pdf pdf-generation pdf-parsing qpdf

19 мар '16 в 05:23

1 ответ

PDFMiner не может читать PDF-формы, для которых требуется Adobe Acrobat

Поэтому моя проблема в том, что я анализирую эти PDF-файлы для извлечения информации с помощью PDFminer, и это работает для большинства форм. Однако есть и другие PDF-файлы, которые не откроются, если вы не используете Adobe Acrobat. Если не использ…

python adobe acrobat pdfminer pdf-parsing

08 фев '19 в 16:27

1 ответ

Что это (cid:51) в выводе pdf2txt?

Поэтому я пытаюсь извлечь текст из PDF-файла, мне нужно его положение, ширина, высота, шрифт. Я пробовал много, но наиболее полезным и полным решением выглядит PDFMiner, а в данном случае, точнее, pdf2txt.py. Я следовал документам и примерам и пытал…

python xml pdf-parsing

13 май '13 в 13:50

0 ответов

Как разобрать текст, извлеченный из файла PDF с разделителем, используя Python?

Я попытался PyPDF2 для извлечения и анализа текста из PDF, используя следующий фрагмент кода; import PyPDF2 import re pdfFileObj = open('test.pdf', 'rb') pdfReader = PyPDF2.PdfFileReader(pdfFileObj) rawText = pdfReader.getPage().extractText() extrac…

python parsing pdf pypdf2 pdf-parsing

24 сен '17 в 10:51

1 ответ

Я хочу знать, как извлечь данные из PDF-файла, используя Java

Я делаю проект по извлечению данных из PDF-файла, поэтому кто-нибудь может дать мне знать, как я могу извлечь все данные, присутствующие в PDF-файле.

java pdf pdf-parsing

11 мар '14 в 18:38

0 ответов

Как я могу проанализировать и изучить PRStream в содержании страницы PDF?

В настоящее время я изучаю PDF с помощью iTextSharp. Я могу легко просматривать страницы и извлекать определенные элементы, такие как аннотации с URI из PdfDictionaries, PdfArrays и т. Д. Моя текущая цель - исследовать и извлекать текст и информацию…

.net pdf itext pdflib pdf-parsing

21 ноя '17 в 18:55