Описание тега pdf-parsing
Deals with extracting useful information from PDF content (for example, text or images)
1
ответ
Ошибка Python PDFMiner: "Нет /Root объект! - Это действительно PDF?"
Я получаю эту ошибку "Нет /Root объект! - Это действительно PDF?" используя мой компьютер MAC с Python 2.7 и PDFMiner версии 20110515. Файлы pdf не повреждены, потому что одна и та же программа с теми же файлами работает на моем компьютере! Также я …
26 июн '13 в 22:42
0
ответов
Простой способ извлечь содержимое Grid из PDF с помощью Java
Мне нужно проанализировать файл PDF, который содержит данные сетки. Я использую PDFBox, чтобы извлечь текст файла для анализа результата (String) позже. Но это не работает, как я ожидал, для данных Grid. Мне нужно извлечь Grid по данным Grid на стра…
02 мар '18 в 10:26
0
ответов
PDFplumber пароль и check_extractable
Я использую библиотеку pdfplumber для анализа pdf. Способ доступа к pdf-файлу - "pdfplumber.open(path)". Может кто-нибудь, пожалуйста, помогите мне, как передать пароль и параметры check_extractable в этом.
22 фев '19 в 10:45
1
ответ
Нужно ли коммерческое использование GhostScript в качестве Saas для лицензии?
Я работал над проектом. В котором пользователь может загрузить PDF и конвертировать его в изображения и чтобы я использовал GhostScript dll (gsdll32.dll). Теперь в моем приложении я хочу взимать с пользователей ежемесячную подписку, чтобы я мог пред…
09 дек '14 в 06:51
2
ответа
CGPDF<...> - где находятся сеттеры?
Есть ли способ создать объекты PDF (например, PDF-словарь с параметрами, которые нужны пользовательскому производителю PDF / потребителю / средству просмотра) с помощью CGPDF<...> или я должен написать свой собственный анализатор и создать новые тре…
19 июл '15 в 04:09
0
ответов
Как разобрать строку файла PDF из PHP?
Я хочу разобрать PDF-файл из PHP. Для этого я собрал этот код (я использовал библиотеку PDF Parser). Код: <?php // Include Composer autoloader if not already done. include 'vendor/autoload.php'; // Parse pdf file and build necessary objects. $par…
11 фев '16 в 05:15
0
ответов
Загрузка внешних пользовательских шрифтов в документы PDF с использованием pdfbox в java
Я нацеливаюсь на чтение контента с не встроенной кодировкой с использованием PDFBox. Как показано на рисунке, я могу извлечь текст из PDF для всех шрифтов с типом TrueType и Encoding Built-in. В результате я получаю субкодированный текст вместо соде…
18 апр '17 в 05:22
1
ответ
Как использовать page.filter(test_function) в библиотеке PDFPlumber?
Я пытаюсь удалить таблицы внутри страницы pdf и пытаюсь использовать для этого функцию page.filter(), здесь у меня есть координаты bbox таблицы, и я пытаюсь сравнить, находятся ли координаты объекта внутри координат таблицы или нет. Но я не смог най…
03 ноя '18 в 08:30
1
ответ
Определите и извлеките определенные разделы документа PDF
У меня есть несколько экзаменов в формате PDF. Я хочу программно извлечь каждый вопрос как отдельное изображение / документ. OCR не идеален, потому что он плохо поддерживает форматирование кода / уравнения. Конечная цель состоит в том, чтобы сделать…
07 ноя '17 в 01:54
1
ответ
Разница между версиями iTextSharp 4.1.6 и 5.x
Мы разрабатываем анализатор Pdf для использования вместе с нашей системой. Требование таково, что мы храним всю информацию в любых документах PDF и должны иметь возможность воспроизводить документ как таковой (с минимальными изменениями по сравнению…
20 июн '14 в 11:59
1
ответ
Не удается переопределить метод PDFTextStripper.writeString (String text, List<TextPosition> textPositions) с помощью C#?
Я использую.net PdfBox для синтаксического анализа, чтобы извлечь текст из PDF вместе с расположением текста. Для этого во время поиска я нашел следующий код Java: PDFTextStripper stripper = new PDFTextStripper() { @Override protected void writeStri…
10 янв '17 в 09:13
0
ответов
Чтение строки в PDF с использованием Python
Я пытаюсь написать программу, которая дает матрицу трассировки для требования -code- Test для которого я не могу читать теги требований из PDF построчно из PDF. Ниже программа, которую я попробовал. import os, sys, time import sys import glob import…
06 янв '17 в 14:19
2
ответа
Apache PDFBox Удалить пробелы между символами
Мы используем PDFBox для извлечения текста из PDF. Некоторые PDF-текст не могут быть извлечены правильно. Следующее изображение показывает часть из PDF в виде изображения: После извлечения текста мы получаем следующий текст: 3, 8 5 EU R 1 Нетто 38,5…
10 апр '15 в 06:01
1
ответ
Python- PDFTables разбирает игнорирующие пробелы между столбцами
Я пытаюсь разобрать таблицы PDF с помощью библиотеки Python pdf tables. Но это объединение столбцов и игнорирование пробелов. Вот мой код: pdf_page = get_pdf_page(fileobj, page) tables = page_to_tables(pdf_page) Структура таблиц в pdf файлах: Выход:
03 апр '18 в 05:46
0
ответов
Можно ли использовать qpdf API для удаления изображений из PDF-файла?
Я хотел бы создать инструмент для удаления всех изображений из файла PDF. Кажется, что библиотека qpdf с открытым исходным кодом должна уметь это делать; например, он имеет пример кода для инвертирования некоторых изображений в PDF. Но используя это…
19 мар '16 в 05:23
1
ответ
PDFMiner не может читать PDF-формы, для которых требуется Adobe Acrobat
Поэтому моя проблема в том, что я анализирую эти PDF-файлы для извлечения информации с помощью PDFminer, и это работает для большинства форм. Однако есть и другие PDF-файлы, которые не откроются, если вы не используете Adobe Acrobat. Если не использ…
08 фев '19 в 16:27
1
ответ
Что это (cid:51) в выводе pdf2txt?
Поэтому я пытаюсь извлечь текст из PDF-файла, мне нужно его положение, ширина, высота, шрифт. Я пробовал много, но наиболее полезным и полным решением выглядит PDFMiner, а в данном случае, точнее, pdf2txt.py. Я следовал документам и примерам и пытал…
13 май '13 в 13:50
0
ответов
Как разобрать текст, извлеченный из файла PDF с разделителем, используя Python?
Я попытался PyPDF2 для извлечения и анализа текста из PDF, используя следующий фрагмент кода; import PyPDF2 import re pdfFileObj = open('test.pdf', 'rb') pdfReader = PyPDF2.PdfFileReader(pdfFileObj) rawText = pdfReader.getPage().extractText() extrac…
24 сен '17 в 10:51
1
ответ
Я хочу знать, как извлечь данные из PDF-файла, используя Java
Я делаю проект по извлечению данных из PDF-файла, поэтому кто-нибудь может дать мне знать, как я могу извлечь все данные, присутствующие в PDF-файле.
11 мар '14 в 18:38
0
ответов
Как я могу проанализировать и изучить PRStream в содержании страницы PDF?
В настоящее время я изучаю PDF с помощью iTextSharp. Я могу легко просматривать страницы и извлекать определенные элементы, такие как аннотации с URI из PdfDictionaries, PdfArrays и т. Д. Моя текущая цель - исследовать и извлекать текст и информацию…
21 ноя '17 в 18:55