Перемещение OCR из PDF в другой - Java

Добрый день, у меня есть проблема в моем проекте, это сжатие PDF, процесс выглядит следующим образом: Извлечение изображений из PDF Hang OCR Сжатие Stock OCR + Объединение изображений и конвертирование PDF на страницу Объединение всех созданных PDF с OCR, OCR PDFcon один как конечный продукт. Размер моего исходного файла - 11 МБ, сжатый - 4,2 МБ. Весь процесс работает отлично, но проблема, которую я имею, заключается в скорости процесса OCR. Я проверял в Интернете, и я нашел способ обойти этот процесс, который получает текстовый слой исходного PDF и передает его в конечный PDF сжатый, попробуйте некоторые коды, такие как удалить все изображения PDF и остаться одному с текстовым слоем, и вставьте мои сжатые изображения, но проблема по сравнению с обычным процессом, описанным выше, увеличивает вес файла более чем на 4,2 МБ, что мне не удобно. При поиске другого решения я обнаружил, что обрабатывают операторы PDF, которые обрабатывались с помощью PDFBox через PDFStreamParser, PDStream, COSDictionary . Операторы TJ, TW, TZ, TC ... и т. Д. Мой вопрос: если кто-нибудь знает, что передают TJ, то есть тот, который содержит текст PDF-файла в другой, чтобы посмотреть, можно ли передать текстовый слой исходного PDF-файла в конечный PDF-файл без моего повышения на 4,2 МБ для поднятия вес, идея не в том, чтобы тратить другие операторы, потому что они могут увеличить вес окончательного PDF или я ошибаюсь? Если бы у вас было какое-то другое решение, которое помогло бы мне, было бы очень признательно?,

Извините, если мой английский плохой, если кто-то знает испанский, говорит мне, чтобы выразить себя лучше.

Я использую язык Java.

Спасибо

0 ответов

Другие вопросы по тегам