Как получить макет скрытого текста, который tesseract создает для файлов pdf?

Question

У меня нет большого опыта работы с ocr. Вот что я пытаюсь:

tesseract -l eng -psm 1 image_str007_0001.jpg image_str007_tess pdf
Результатом является идеально структурированное расположение скрытого текста - слова находятся на своих точных местах при поиске в PDF. У меня вопрос: могу ли я получить этот макет в виде файла (hocr или html)? (Параметры конфигурации предпочтительнее, а не API.)
Что я пробовал:
tesseract -l eng -psm 1 image_str007_0001.jpg вывод hocr

а также

hocr2pdf -i image_str007_001 -o output.pdf
В файле output.pdf слова плохо переносятся при поиске по тексту. Команда 2. неверна для создания файла макета tesseract hocr, или приложение hocr2pdf неправильно создает pdf?

pdf layout tesseract hocr

Источник

user6028395 07 мар '16 в 10:24

0 ответов

Другие вопросы по тегам pdf layout tesseract hocr