Командная строка ocrmypdf 13.4.1 работает, но в API отсутствуют текстовые слои при использовании output_type="pdf"

Question

Недавно я обновился с ocrmypdf 9.0.3/tesseract 4.x до ocrmypdf 13.4.1/tesseract 5.1.

При использовании ocrmypdf 9.x или 13.x это работает в cli:

      $ ocrmypdf --output-type pdf sample-file.pdf output-file.pdf

Однако, когда я использую API в своем приложении,

      import ocrmypdf

ocrmypdf.ocr("path/to/inputfile.pdf", "path/to/outputfile.pdf", output_type="pdf")

Текстовые слои добавляются только тогда, когда я использую ocrmypdf 9.x, и текст не доступен для поиска, когда я использую 13.4.1.

Однако, если я использую:

      ocrmypdf.ocr("inputfile.pdf", "outputfile.pdf", output_type="pdfa")

затем устанавливаются соответствующие текстовые слои при использовании 9.x или 13.4.1.

Я чувствую, что упускаю что-то очень простое... чем помочь?

ocrmypdf

Источник

user2984959 25 мар '22 в 16:35

1 ответ

Другие вопросы по тегам ocrmypdf

user2984959 25 мар '22 в 18:26 2022-03-25 18:26 · Answer 1 · 2022-03-25 18:26

Это оказалось не проблема.

Был задействован этап постобработки, который впоследствии изменил вывод.
13.4.х работает нормально.

Источник

user2984959 25 мар '22 в 18:26