Описание тега pdf-extraction

Извлечение текста и других данных из документа PDF, независимо от библиотек, используемых для этого.
1 ответ

Огромный пробел после заголовка в PDF с помощью Flying Saucer

Я пытаюсь экспортировать HTML-страницу в PDF с помощью Flying Saucer. По какой-то причине страницы имеют большой пробел после разделения заголовка (id = "divTemplateHeaderPage1"). Ссылка jsFiddle на мой HTML-код, который используется рендерером PDF:…
16 дек '17 в 12:14
1 ответ

Как использовать page.filter(test_function) в библиотеке PDFPlumber?

Я пытаюсь удалить таблицы внутри страницы pdf и пытаюсь использовать для этого функцию page.filter(), здесь у меня есть координаты bbox таблицы, и я пытаюсь сравнить, находятся ли координаты объекта внутри координат таблицы или нет. Но я не смог най…
03 ноя '18 в 08:30
3 ответа

Ошибка при извлечении изображения из PDF в python

Я пытаюсь извлечь все форматы изображений из PDF. Я немного погуглил и нашел эту страницу в Stackru. Я пробовал этот код, но я получаю эту ошибку: Я использую Python 3.x и вот код, который я использую. Я пытался просмотреть комментарии, но не смог п…
1 ответ

Данные сканирования Scrapy внутри pdf файла

Я хотел бы знать, как сканировать данные в PDF-файл, используя scrapy. Какой модуль я должен использовать, а какой самый лучший и эффективный способ? Не могли бы вы дать мне несколько примеров учебников по этому Спасибо!!
08 июл '15 в 09:10
0 ответов

Неразборчивый текст Камелот

Я использую Камелот для извлечения текста из нескольких PDF-файлов. Конкретная таблица из PDF (показана ниже) доставляет мне проблемы с добычей. Одиночные кресты действуют как единое целое, когда я строю таблицу (показано ниже) Я хотел бы знать, поч…
2 ответа

Как я могу напечатать таблицы в файле.pdf, используя python

CalledProcessError: Команда '['java', '-Dfile.encoding=UTF8', '-jar', 'C:\Users\vijv2c13136\AppData\Local\Continuum\anaconda2\lib\site-packages\tabula\tabula-1.0.2-jar-with-dependencies.jar', '--pages', 'all', '--guess', '--format', 'JSON', 'TONY.pd…
13 дек '18 в 06:18
1 ответ

Извлечение определенных сегментов из документа PDF

У меня есть несколько исследовательских работ в формате PDF, и я хочу извлечь из статьи только введение / справочную информацию и т. Д. Кроме того, я могу использовать только Python. Может кто-нибудь, пожалуйста, помогите?
12 авг '18 в 09:49
1 ответ

Ошибка Perl - нельзя вызвать "getPageContent" для неопределенного значения?

Привет я пытаюсь извлечь содержимое файла PDF, но я сталкиваюсь с вышеуказанной проблемой, мой код use PDF; use CAM::PDF; use CAM::PDF::PageText; my $file = "s.pdf"; my $pdf = CAM::PDF->new($file); my $pageone_tree = $pdf->getPageContent(1); p…
22 авг '13 в 04:40
2 ответа

Если определить структуру текста в PDF-документах так сложно, как читатели PDF делают это так хорошо?

Я пытался написать простое консольное приложение или скрипт PowerShell для извлечения текста из большого количества PDF-документов. Есть несколько библиотек и инструментов CLI, которые предлагают сделать это, но оказывается, что ни одна из них не мо…
27 мар '14 в 00:08
0 ответов

Получить координаты X,Y выбранной области из PDF

Я пытаюсь извлечь текст из определенного раздела PDF. Если я знаю координаты X,Y области, я могу извлечь текст. Но я не могу получить координаты выбранной области из PDF. Пожалуйста, помогите мне, если кто-нибудь уже пробовал это.
25 июн '14 в 04:14
0 ответов

PDFMiner неправильно складывает данные списка?

Я пытаюсь извлечь информацию из PDF-файла с помощью PDFMiner согласованным образом, чтобы я мог провести дальнейший анализ, но не могу понять, как правильно извлечь табличные данные. PDF Miner, кажется, извлекает столбцы перед строками. Кто-нибудь р…
17 окт '15 в 17:56
1 ответ

Tabula-py, пропускающие страницы из документа PDF, который я пытаюсь извлечь

Я пытаюсь извлечь таблицы из многостраничного PDF с помощью tabula-py, и хотя таблицы на некоторых страницах PDF извлекаются идеально, некоторые страницы полностью опускаются. Пропуски кажутся случайными и не следуют никаким видимым визуальным особе…
29 июл '18 в 23:46
4 ответа

iText - получить размер шрифта и семейство текстового сегмента

В настоящее время я пытаюсь автоматически извлечь важные ключевые слова из файла PDF. Я могу получить текстовую информацию из документа PDF. Но теперь мне нужно знать, какой размер шрифта и семейство шрифтов имеют эти ключевые слова. Следующий код у…
04 июн '12 в 09:48
1 ответ

Как извлечь содержимое таблицы в PDF-файл?

Я хочу извлечь содержимое таблицы в формате PDF примерно так: Я написал эту Java-программу, используя iText Java Java Libray, который может построчно читать содержимое файла PDF, но я не знаю, как получить содержимое таблицы import com.itextpdf.text…
09 июл '15 в 22:00
2 ответа

Python - вытащить PDF-файлы с веб-страницы и конвертировать в HTML

Моя цель - создать скрипт на языке Python, который будет обращаться к определенным веб-страницам, извлекать все PDF-файлы на каждой странице с определенным словом в имени файла, преобразовывать их в HTML / XML, а затем просматривать HTML-файлы для ч…
18 фев '14 в 21:06
0 ответов

Как извлечь изображения и изображения BBox координат с помощью Python?

Я пытаюсь извлечь изображения в PDF с помощью координат BBox изображения. Я попытался использовать библиотеку pdfrw, она идентифицирует объекты изображения, и у нее есть атрибут с именем media box, который имеет некоторые координаты, я не уверен, чт…
06 фев '19 в 06:41
1 ответ

Как извлечь текст под конкретные заголовки из PDF?

Я хочу извлечь текст под определенными заголовками из PDF, используя Python. Например, у меня есть PDF с заголовками Введение, Резюме, Содержание. Мне нужно извлечь только текст под заголовком "Резюме". Как я могу это сделать?
2 ответа

Лучший способ получить дружественный к базе данных список больницы по делам ветеранов

Я искренне извиняюсь, если это не тот форум, на котором можно это обсуждать, но я не был уверен, куда идти или какой будет лучший вариант. По сути, я пытаюсь найти в базе данных дружественный список больниц по делам ветеранов. Самая близкая вещь, ко…
1 ответ

Pdf анализ текста с использованием Java

У меня та же проблема извлечения арабского текста из PDF-файла, может ли кто-нибудь помочь, если есть решение??? Я пытался много раз с pdfbox, но безрезультатно.
05 дек '11 в 10:07
1 ответ

iTextSharp извлекает каждый символ и getRectangle

Я хотел бы анализировать весь PDF-символ за символом и иметь возможность получить значение ASCII, шрифт и прямоугольник этого символа в этом PDF-документе, которые я позже смогу использовать для сохранения в виде растрового изображения. Я попытался …
21 янв '16 в 07:17