Как проверить, правильно ли выполнены Encoding и ToUnicode для PDF?

Я использую qpdf, чтобы проверить, правильно ли настроены (закодированы) кодировка и toUnicode для pdf с помощью следующей команды, и найдите слово "ToUnicode" в текстовом файле. Цель состоит в том, чтобы убедиться, что лигатура в файле может быть правильно декодирована в средстве просмотра PDF, таком как Adobe Acrobat Reader, pdf.js, pdfium и т. Д.

Интересно, это правильный путь? Что рекомендуется?

qpdf --stream-data=uncompress input.pdf output.txt

Спасибо.

1 ответ

Это довольно сложная задача.

Ваш документ может содержать несколько шрифтов, некоторые с картой ToUnicode, а некоторые без, и все они могут быть действительными.

Затем для шрифтов, которые включают карту ToUnicode, вы должны проверить, что все идентификаторы символов, используемые с этим шрифтом, также присутствуют в карте ToUnicode.

И последний шаг - проверить, сопоставлен ли каждый символ идентификатора правильному символу (символы для лигатуры). Это невозможно сделать автоматически, потому что вы не знаете, какой символ представлен каким-либо идентификатором. Например, глиф "A" представлен символом id 1, когда текст отображается на странице. Но в ToUnicode cmap символ 1 отображается на символ "B". Это логическая ошибка, которая не может быть проверена автоматически.

Другие вопросы по тегам