Описание тега pdf-extraction
Извлечение текста и других данных из документа PDF, независимо от библиотек, используемых для этого.
1
ответ
Огромный пробел после заголовка в PDF с помощью Flying Saucer
Я пытаюсь экспортировать HTML-страницу в PDF с помощью Flying Saucer. По какой-то причине страницы имеют большой пробел после разделения заголовка (id = "divTemplateHeaderPage1"). Ссылка jsFiddle на мой HTML-код, который используется рендерером PDF:…
16 дек '17 в 12:14
1
ответ
Как использовать page.filter(test_function) в библиотеке PDFPlumber?
Я пытаюсь удалить таблицы внутри страницы pdf и пытаюсь использовать для этого функцию page.filter(), здесь у меня есть координаты bbox таблицы, и я пытаюсь сравнить, находятся ли координаты объекта внутри координат таблицы или нет. Но я не смог най…
03 ноя '18 в 08:30
3
ответа
Ошибка при извлечении изображения из PDF в python
Я пытаюсь извлечь все форматы изображений из PDF. Я немного погуглил и нашел эту страницу в Stackru. Я пробовал этот код, но я получаю эту ошибку: Я использую Python 3.x и вот код, который я использую. Я пытался просмотреть комментарии, но не смог п…
09 дек '17 в 17:01
1
ответ
Данные сканирования Scrapy внутри pdf файла
Я хотел бы знать, как сканировать данные в PDF-файл, используя scrapy. Какой модуль я должен использовать, а какой самый лучший и эффективный способ? Не могли бы вы дать мне несколько примеров учебников по этому Спасибо!!
08 июл '15 в 09:10
0
ответов
Неразборчивый текст Камелот
Я использую Камелот для извлечения текста из нескольких PDF-файлов. Конкретная таблица из PDF (показана ниже) доставляет мне проблемы с добычей. Одиночные кресты действуют как единое целое, когда я строю таблицу (показано ниже) Я хотел бы знать, поч…
28 янв '19 в 11:29
2
ответа
Как я могу напечатать таблицы в файле.pdf, используя python
CalledProcessError: Команда '['java', '-Dfile.encoding=UTF8', '-jar', 'C:\Users\vijv2c13136\AppData\Local\Continuum\anaconda2\lib\site-packages\tabula\tabula-1.0.2-jar-with-dependencies.jar', '--pages', 'all', '--guess', '--format', 'JSON', 'TONY.pd…
13 дек '18 в 06:18
1
ответ
Извлечение определенных сегментов из документа PDF
У меня есть несколько исследовательских работ в формате PDF, и я хочу извлечь из статьи только введение / справочную информацию и т. Д. Кроме того, я могу использовать только Python. Может кто-нибудь, пожалуйста, помогите?
12 авг '18 в 09:49
1
ответ
Ошибка Perl - нельзя вызвать "getPageContent" для неопределенного значения?
Привет я пытаюсь извлечь содержимое файла PDF, но я сталкиваюсь с вышеуказанной проблемой, мой код use PDF; use CAM::PDF; use CAM::PDF::PageText; my $file = "s.pdf"; my $pdf = CAM::PDF->new($file); my $pageone_tree = $pdf->getPageContent(1); p…
22 авг '13 в 04:40
2
ответа
Если определить структуру текста в PDF-документах так сложно, как читатели PDF делают это так хорошо?
Я пытался написать простое консольное приложение или скрипт PowerShell для извлечения текста из большого количества PDF-документов. Есть несколько библиотек и инструментов CLI, которые предлагают сделать это, но оказывается, что ни одна из них не мо…
27 мар '14 в 00:08
0
ответов
Получить координаты X,Y выбранной области из PDF
Я пытаюсь извлечь текст из определенного раздела PDF. Если я знаю координаты X,Y области, я могу извлечь текст. Но я не могу получить координаты выбранной области из PDF. Пожалуйста, помогите мне, если кто-нибудь уже пробовал это.
25 июн '14 в 04:14
0
ответов
PDFMiner неправильно складывает данные списка?
Я пытаюсь извлечь информацию из PDF-файла с помощью PDFMiner согласованным образом, чтобы я мог провести дальнейший анализ, но не могу понять, как правильно извлечь табличные данные. PDF Miner, кажется, извлекает столбцы перед строками. Кто-нибудь р…
17 окт '15 в 17:56
1
ответ
Tabula-py, пропускающие страницы из документа PDF, который я пытаюсь извлечь
Я пытаюсь извлечь таблицы из многостраничного PDF с помощью tabula-py, и хотя таблицы на некоторых страницах PDF извлекаются идеально, некоторые страницы полностью опускаются. Пропуски кажутся случайными и не следуют никаким видимым визуальным особе…
29 июл '18 в 23:46
4
ответа
iText - получить размер шрифта и семейство текстового сегмента
В настоящее время я пытаюсь автоматически извлечь важные ключевые слова из файла PDF. Я могу получить текстовую информацию из документа PDF. Но теперь мне нужно знать, какой размер шрифта и семейство шрифтов имеют эти ключевые слова. Следующий код у…
04 июн '12 в 09:48
1
ответ
Как извлечь содержимое таблицы в PDF-файл?
Я хочу извлечь содержимое таблицы в формате PDF примерно так: Я написал эту Java-программу, используя iText Java Java Libray, который может построчно читать содержимое файла PDF, но я не знаю, как получить содержимое таблицы import com.itextpdf.text…
09 июл '15 в 22:00
2
ответа
Python - вытащить PDF-файлы с веб-страницы и конвертировать в HTML
Моя цель - создать скрипт на языке Python, который будет обращаться к определенным веб-страницам, извлекать все PDF-файлы на каждой странице с определенным словом в имени файла, преобразовывать их в HTML / XML, а затем просматривать HTML-файлы для ч…
18 фев '14 в 21:06
0
ответов
Как извлечь изображения и изображения BBox координат с помощью Python?
Я пытаюсь извлечь изображения в PDF с помощью координат BBox изображения. Я попытался использовать библиотеку pdfrw, она идентифицирует объекты изображения, и у нее есть атрибут с именем media box, который имеет некоторые координаты, я не уверен, чт…
06 фев '19 в 06:41
1
ответ
Как извлечь текст под конкретные заголовки из PDF?
Я хочу извлечь текст под определенными заголовками из PDF, используя Python. Например, у меня есть PDF с заголовками Введение, Резюме, Содержание. Мне нужно извлечь только текст под заголовком "Резюме". Как я могу это сделать?
05 янв '18 в 05:19
2
ответа
Лучший способ получить дружественный к базе данных список больницы по делам ветеранов
Я искренне извиняюсь, если это не тот форум, на котором можно это обсуждать, но я не был уверен, куда идти или какой будет лучший вариант. По сути, я пытаюсь найти в базе данных дружественный список больниц по делам ветеранов. Самая близкая вещь, ко…
10 июл '12 в 21:49
1
ответ
Pdf анализ текста с использованием Java
У меня та же проблема извлечения арабского текста из PDF-файла, может ли кто-нибудь помочь, если есть решение??? Я пытался много раз с pdfbox, но безрезультатно.
05 дек '11 в 10:07
1
ответ
iTextSharp извлекает каждый символ и getRectangle
Я хотел бы анализировать весь PDF-символ за символом и иметь возможность получить значение ASCII, шрифт и прямоугольник этого символа в этом PDF-документе, которые я позже смогу использовать для сохранения в виде растрового изображения. Я попытался …
21 янв '16 в 07:17