Командная строка ocrmypdf 13.4.1 работает, но в API отсутствуют текстовые слои при использовании output_type="pdf"
Недавно я обновился с ocrmypdf 9.0.3/tesseract 4.x до ocrmypdf 13.4.1/tesseract 5.1.
При использовании ocrmypdf 9.x или 13.x это работает в cli:
$ ocrmypdf --output-type pdf sample-file.pdf output-file.pdf
Однако, когда я использую API в своем приложении,
import ocrmypdf
ocrmypdf.ocr("path/to/inputfile.pdf", "path/to/outputfile.pdf", output_type="pdf")
Текстовые слои добавляются только тогда, когда я использую ocrmypdf 9.x, и текст не доступен для поиска, когда я использую 13.4.1.
Однако, если я использую:
ocrmypdf.ocr("inputfile.pdf", "outputfile.pdf", output_type="pdfa")
затем устанавливаются соответствующие текстовые слои при использовании 9.x или 13.4.1.
Я чувствую, что упускаю что-то очень простое... чем помочь?
1 ответ
Это оказалось не проблема.
Был задействован этап постобработки, который впоследствии изменил вывод.
13.4.х работает нормально.