Параметры Tesseract для правильного распознавания тривиального изображения?
Я не могу получить tesseract (используя утилиту-оболочку ocrmypdf) для OCR, что кажется тривиальным случаем изображения, я должен упустить что-то простое. GeniusScan на iOS (и даже новая функция iOS Live Text ) быстро справляются с распознаванием этого текста.
img2pdf image.jpg | ocrmypdf --tesseract-oem 1 --tesseract-pagesegmode 11 - image_ocr.pdf
Версии:
img2pdf 0.3.3
tesseract 4.1.1
ocrmypdf 13.2.0
Я установил обученный набор данных tessdata_best .
Часы попыток различных комбинаций параметров, например типичных:
--rotate-pages
--remove-background
--deskew
--clean
Даже пытался использовать детализированные параметры, доступные только с записями в файле конфигурации:
min_characters_to_try 5
load_system_dawg false
load_freq_dawg false
Я даже нашел несколько отличных статей о режимах сегментации страниц и попробовал несколько типов, но все безрезультатно. Как я могу изменить свой конвейер, чтобы правильно распознавать текст на прикрепленном изображении?