Как получить макет скрытого текста, который tesseract создает для файлов pdf?
У меня нет большого опыта работы с ocr. Вот что я пытаюсь:
tesseract -l eng -psm 1 image_str007_0001.jpg image_str007_tess pdf
Результатом является идеально структурированное расположение скрытого текста - слова находятся на своих точных местах при поиске в PDF. У меня вопрос: могу ли я получить этот макет в виде файла (hocr или html)? (Параметры конфигурации предпочтительнее, а не API.)
Что я пробовал:
tesseract -l eng -psm 1 image_str007_0001.jpg вывод hocr
а также
hocr2pdf -i image_str007_001 -o output.pdf
В файле output.pdf слова плохо переносятся при поиске по тексту. Команда 2. неверна для создания файла макета tesseract hocr, или приложение hocr2pdf неправильно создает pdf?