Предельный размер пространства в Тессеракте
Я пишу на Python, используя pytesseract
или прямой Popen
звонки при необходимости.
Я пытаюсь распознать документ с нерегулярной структурой, письмо выглядит так: Проблема в .hocr
файл, сгенерированный Tesseract Я получаю строки, состоящие из левого и правого столбцов, склеенных вместе, как "Получатель: Отправитель:"
Чего я хотел бы добиться, так это вывести вывод из левого и правого столбцов. Использование сторонних утилит Python для предварительной обработки изображения является приемлемым решением, если объяснить его достаточно подробно. Скрипт должен быть автономным и как-то определять эту проблему, поскольку не все буквы имеют такое странное форматирование.
Пробовал / идеи:
С помощью --psm 1
чтобы разрешить обнаружение формата ввода - без улучшения по умолчанию, вероятно, потому что структура слишком сложна.
Настройка некоторых параметров файла конфигурации, таких как gapmap_use_ends
а также textord_words_maxspace
- Я не смог найти хорошую документацию по этим вопросам, и, вероятно, существует правильная комбинация значений, но есть 57 вариантов с "пробелом" в названии... любое понимание этих вопросов будет высоко оценено.
Редактирование .hocr
- не уверен, как написать соответствующие правила группировки для блоков слов, которые не мешают нормальному тексту везде...