Вывод hOCR из OCRmyPDF

Question

Вывод hOCR из OCRmyPDF

Я запускаю OCRmyPDF для создания PDF-файлов с возможностью поиска из отсканированных PDF-файлов, и у меня это работает очень хорошо. Я просто хочу сохранить вывод hOCR в моем локальном каталоге для каждой страницы отсканированного PDF-файла. Как я могу это сделать?

1

python hocr ocrmypdf

Источник

user11449331 28 янв '22 в 09:22

1 ответ

Другие вопросы по тегам python hocr ocrmypdf

user1116627 14 июл '22 в 15:44 2022-07-14 15:44 · Answer 1 · 2022-07-14 15:44

Я смог сделать это, добавив плагин:

      from os.path import splitext
import shutil

from ocrmypdf import hookimpl
from ocrmypdf.builtin_plugins.tesseract_ocr import TesseractOcrEngine


class TesseractHocrEngine(TesseractOcrEngine):
    @staticmethod
    def generate_hocr(input_file, output_hocr, output_text, options):
        TesseractOcrEngine.generate_hocr(input_file, output_hocr, output_text, options)

        output_file = options.output_file
        if not output_file:
            return

        output_file_name, _ = splitext(output_file)
        output_file_hocr = output_file_name + ".hocr"
        shutil.copyfile(output_hocr, output_file_hocr)


@hookimpl
def get_ocr_engine():
    return TesseractHocrEngine()

Затем добавьте его в опции:

      opts["plugins"] = os.path.join(current_folder, "tesseract_hocr_plugin.py")
exit_code = ocrmypdf.ocr(in_path, out_path, **opts)

Просто имейте в виду, что OCRmyPDF не всегда создает файл hOCR.