Предельный размер пространства в Тессеракте

Я пишу на Python, используя pytesseract или прямой Popen звонки при необходимости.

Я пытаюсь распознать документ с нерегулярной структурой, письмо выглядит так: введите описание изображения здесь Проблема в .hocr файл, сгенерированный Tesseract Я получаю строки, состоящие из левого и правого столбцов, склеенных вместе, как "Получатель: Отправитель:"

Чего я хотел бы добиться, так это вывести вывод из левого и правого столбцов. Использование сторонних утилит Python для предварительной обработки изображения является приемлемым решением, если объяснить его достаточно подробно. Скрипт должен быть автономным и как-то определять эту проблему, поскольку не все буквы имеют такое странное форматирование.

Пробовал / идеи:

С помощью --psm 1 чтобы разрешить обнаружение формата ввода - без улучшения по умолчанию, вероятно, потому что структура слишком сложна.

Настройка некоторых параметров файла конфигурации, таких как gapmap_use_ends а также textord_words_maxspace - Я не смог найти хорошую документацию по этим вопросам, и, вероятно, существует правильная комбинация значений, но есть 57 вариантов с "пробелом" в названии... любое понимание этих вопросов будет высоко оценено.

Редактирование .hocr - не уверен, как написать соответствующие правила группировки для блоков слов, которые не мешают нормальному тексту везде...

0 ответов

Другие вопросы по тегам