Как получить макет скрытого текста, который tesseract создает для файлов pdf?

У меня нет большого опыта работы с ocr. Вот что я пытаюсь:

  1. tesseract -l eng -psm 1 image_str007_0001.jpg image_str007_tess pdf

    Результатом является идеально структурированное расположение скрытого текста - слова находятся на своих точных местах при поиске в PDF. У меня вопрос: могу ли я получить этот макет в виде файла (hocr или html)? (Параметры конфигурации предпочтительнее, а не API.)

    Что я пробовал:

  2. tesseract -l eng -psm 1 image_str007_0001.jpg вывод hocr

а также

  1. hocr2pdf -i image_str007_001 -o output.pdf

    В файле output.pdf слова плохо переносятся при поиске по тексту. Команда 2. неверна для создания файла макета tesseract hocr, или приложение hocr2pdf неправильно создает pdf?

0 ответов

Другие вопросы по тегам