Оптимизация PDF - загрузка изображения перед внедренным текстом - см. Приведенные примеры

Я пытался найти способ заставить наш OCRed PDF (bad-uc.pdf) вести себя так же, как сохраненный инфикс (good-uc.pdf).

Если вы откроете следующие два файла в Acrobat Reader (любая версия должна показывать ту же проблему), вы увидите, что bad-uc.pdf загружает текст перед изображением страницы (очень медленно)... где good-uc.pdf загружает все вместе (кажется намного быстрее и отзывчивее).

good-uc.pdf: https://drive.google.com/file/d/0B-Nxr9ySWJnNX2dZSmVscEZIRmc/view?usp=sharing bad-uc-pdf: https://drive.google.com/file/d/0B-Nxr9ySWJnNN2t6X2hFNTBxa0U/view?usp=sharing

Я пробовал: pdftk, pdftops, ghostscript, pdf2ps, ps2pdf и qpdf, но все еще не мог получить изображения для загрузки до текста... Может кто-то эксперты в PDF пролить свет на то, почему эти два PDF ведут себя по-разному...

Я предполагаю, что infix реструктурирует PDF, так что изображения загружаются раньше, чем встроенный текст, но я не могу найти инструмент командной строки Linux, который может выполнить такую ​​оптимизацию структуры PDF.

Высоко ценится!! Джеффри

1 ответ

Решение

пролить свет на то, почему эти два PDF ведут себя по-разному...

На самом деле оба ваших PDF-файла занимают примерно одинаковое время, пока они не будут правильно отображены программой Adobe Reader на моем компьютере. Но в то время как ваш bad-uc.pdf сначала показывает текст OCR, а затем покрывает его сканированием, good-uc.pdf сначала показывает простую страницу, а затем покрывает ее сканированием.

Причина этого в том, что good-uc.pdf рисует текст OCR в режиме рендеринга 3 ("невидимый"), в то время как bad-uc.pdf обычно рисует его в режиме рендеринга 0 ("заливка контура") черным цветом заливки. Поскольку для создания невидимой картины может потребоваться меньше времени, чем для реальной рисования черным по белому, может даже существовать объективное различие между временем рендеринга, но я думаю, что это в основном субъективно.

Другие вопросы по тегам