Вывод hOCR из OCRmyPDF

Я запускаю OCRmyPDF для создания PDF-файлов с возможностью поиска из отсканированных PDF-файлов, и у меня это работает очень хорошо. Я просто хочу сохранить вывод hOCR в моем локальном каталоге для каждой страницы отсканированного PDF-файла. Как я могу это сделать?

1 ответ

Я смог сделать это, добавив плагин:

      from os.path import splitext
import shutil

from ocrmypdf import hookimpl
from ocrmypdf.builtin_plugins.tesseract_ocr import TesseractOcrEngine


class TesseractHocrEngine(TesseractOcrEngine):
    @staticmethod
    def generate_hocr(input_file, output_hocr, output_text, options):
        TesseractOcrEngine.generate_hocr(input_file, output_hocr, output_text, options)

        output_file = options.output_file
        if not output_file:
            return

        output_file_name, _ = splitext(output_file)
        output_file_hocr = output_file_name + ".hocr"
        shutil.copyfile(output_hocr, output_file_hocr)


@hookimpl
def get_ocr_engine():
    return TesseractHocrEngine()

Затем добавьте его в опции:

      opts["plugins"] = os.path.join(current_folder, "tesseract_hocr_plugin.py")
exit_code = ocrmypdf.ocr(in_path, out_path, **opts)

Просто имейте в виду, что OCRmyPDF не всегда создает файл hOCR.

Другие вопросы по тегам