Описание тега pdfbox
Библиотека Apache PDFBox - это инструмент Java с открытым исходным кодом для работы с документами PDF. Этот проект позволяет создавать новые PDF-документы, управлять существующими документами и извлекать контент из документов. Apache PDFBox также включает несколько утилит командной строки.
1
ответ
Как наиболее эффективно объединить 10000 pdf в один, используя pdfbox
PDFBox API хорошо работает для меньшего количества файлов. Но мне нужно объединить 10000 PDF-файлов в один, и когда я передаю 10000 файлов (около 5 ГБ), это занимает 5 ГБ оперативной памяти и, наконец, не хватает памяти. Есть ли реализация для таког…
06 июл '16 в 08:51
0
ответов
Удаление страниц из PDF с помощью PDFBox дает больший PDF, чем оригинал
Мне нужно извлечь диапазон страниц из файлов PDF. Я использую следующий код для этого (используя PDFBox v2.0.4): int startPage = 17; int endPage = 18; String fn = "original.pdf"; String resFn = "result.pdf"; PDDocument doc = PDDocument.load(new File…
20 окт '17 в 16:09
0
ответов
Тика не может правильно читать текст из файла PDF
Я новичок в Apache Тика. У меня есть два файла PDF с другим шрифтом, но tika не может правильно читать, у одного шрифт Shruti, который правильно читается с помощью tika, но у другого файла шрифт lmg-rupen, который не читается правильно с tika, есть …
30 июл '16 в 16:56
1
ответ
PDFBox: получить радиокнопку из группы радиокнопок
Я создал PDF-файл, который содержит группу радиобутонов и две опции радиобутонов (например, RadiobuttonGroup: Color, RadioButton: White, Radiobutton: Black). Чего я хочу добиться, так это установить с PDFBox один из двух вариантов. Например, установ…
04 авг '17 в 10:10
1
ответ
Как получить высоту содержимого страницы с помощью pdfbox
Можно ли получить высоту содержимого страницы с помощью pdfbox? Я думаю, что я попробовал все, но каждый (PDRectangle) возвращает полную высоту страницы: 842. Сначала я подумал, что это потому, что номер страницы находится внизу страницы, но когда я…
04 фев '15 в 12:26
0
ответов
Выполнение проекта в терминале дает NoClassDefFoundError
Я получил код с помощью PDFBox. Выполнение его с Eclipse без ошибок. Но когда я пытаюсь использовать терминал Windows, он показывает: Исключение в потоке "main" java.lang.NoClassDefFoundError: org/apache/pdfbox/pdmodel/PDDocument в PdfReader2.main(P…
08 фев '17 в 11:20
0
ответов
PDFBox: шрифт-клон
Я клонирую документ для редактирования со следующим кодом. cloneDoc = new PDDocument() PDFCloneUtility cloner = new PDFCloneUtility(cloneDoc); for(int pageIndex = 0; pageIndex < mainDoc.getNumberOfPages(); ++pageIndex) { PDPage page = mainDoc.get…
29 май '18 в 22:00
1
ответ
Создать диаграмму столбца с Java
Я должен создать столбчатую диаграмму через Java, но не знаю, какую библиотеку использовать для этой цели. Эта диаграмма должна выглядеть так: Ребята, вы можете предложить мне хорошую библиотеку? PS: после генерации этой диаграммы я должен сгенериро…
18 май '17 в 10:29
1
ответ
Запись изображений с высоким разрешением (DPI) в PDF
Я видел код для извлечения изображений на основе изображения DPI с использованием PDFBox, как показано ниже PDDocument document = PDDocument.load(path); PDFImageWriter writer = new PDFImageWriter(); boolean success = writer.writeImage(document, "jpg…
18 авг '14 в 07:23
1
ответ
Объединение PDF-файлов, хранящихся на Amazon S3
В настоящее время я использую pdfbox для загрузки всех моих файлов pdf на моем сервере, а затем использую pdfbox для их объединения. Он работает отлично, но очень медленно - так как мне нужно загрузить их все. Есть ли способ выполнить все это на S3 …
15 дек '15 в 20:37
1
ответ
Apache PDFBOX - получение java.lang.OutOfMemoryError при использовании split(документ PDDocument)
Я пытаюсь разделить документ с приличными 300 страницами, используя Apache PDFBOX API V2.0.2. При попытке разделить файл PDF на отдельные страницы, используя следующий код: PDDocument document = PDDocument.load(inputFile); Splitter splitter = new Sp…
04 июл '16 в 15:30
1
ответ
Замена изображения с помощью PDFBox не меняет размер PDF в соответствии с изображением
Я использую PDFBox 2.0.8 для замены изображения в моем приложении. Я могу извлечь изображение и заменить его другим изображением того же размера. Однако при уменьшении размера изображения размер PDF не уменьшается. Например, обратитесь к документам …
29 июл '18 в 17:21
2
ответа
Как определить искусственный жирный стиль, искусственный курсивный стиль и стиль искусственного контура текста с помощью PDFBOX
Я использую PDFBox для проверки PDF документа. Существует определенное требование для проверки следующих типов текста в PDF Искусственный текст в стиле Bold Искусственный курсив стиль текста. Искусственный контурный стиль текста Я выполнил поиск в с…
02 янв '14 в 07:17
1
ответ
Java PDF манипулирование, замена текста на основе сопоставления с шаблоном, с гиперссылкой
Кто-нибудь знает лучший способ взять PDF-документ и заменить все подстроки, которые соответствуют шаблону ( [AZ][AZ][AZ] ' ' [0-9][0-9][0-9][0-9]|[AZ]) и замените его гиперссылкой с той же строкой, идущей на ту же строку. Я планирую разрешить пользо…
01 мар '11 в 22:47
0
ответов
Простой способ извлечь содержимое Grid из PDF с помощью Java
Мне нужно проанализировать файл PDF, который содержит данные сетки. Я использую PDFBox, чтобы извлечь текст файла для анализа результата (String) позже. Но это не работает, как я ожидал, для данных Grid. Мне нужно извлечь Grid по данным Grid на стра…
02 мар '18 в 10:26
1
ответ
Очистка неиспользуемых изображений в ресурсах страницы PDF
Пожалуйста, прости меня, если это было задано, но я не нашел ни одного совпадения. У меня есть несколько файлов PDF, где изображения дублируются на ресурсах каждой страницы, но никогда не используются в потоке контента. Я думаю, что это заставляет к…
01 авг '18 в 22:12
0
ответов
Сравнение PDF с использованием JAVA
Я должен сравнить два PDF-файла. Я не могу использовать какую-либо утилиту сравнения, так как мы хотим автоматизировать тестирование, а документы хранятся на разных серверах и в разных местах. Я использовал PDFbox для сравнения PDF-файлов. Один доку…
23 июн '14 в 11:51
0
ответов
PDFBox используется для создания PDF в формате HTML
У меня есть еще один вопрос о PDFBox. Можно ли создать новые шаблоны pdf на нашей веб-странице и сохранить их? Ну, что-то вроде - я хочу создать PDF-документ с конкретными полями в качестве администратора на веб-странице. У меня есть поля, которые я…
09 дек '17 в 18:05
1
ответ
pdfbox генерирует pdf с символами кириллицы
Я создаю pdf, используя pdfbox - 2.0.6, импортирую собственный шрифт и выполняю документ кириллическими символами. Когда я тестирую на 3 компьютерах (на базе 2xWindows и 1 на Linux ubunto), это нормально. Но когда я развертываю свой код на сервере (…
01 июн '17 в 13:11
1
ответ
PDFBox Outofmemory при преобразовании PDF в Tiff, как сжимать изображения JPEG?
Я пытаюсь использовать изображения как новую страницу в файлах PDF, изображения JPEG слишком велики по размеру, хотя они добавляются нормально, но я сталкиваюсь с проблемой при преобразовании PDF в Tiff, исключение из памяти, есть ли способ сжать эт…
01 фев '18 в 10:34