Предельный размер пространства в Тессеракте

Question

Предельный размер пространства в Тессеракте

Я пишу на Python, используя pytesseract или прямой Popen звонки при необходимости.

Я пытаюсь распознать документ с нерегулярной структурой, письмо выглядит так: Проблема в .hocr файл, сгенерированный Tesseract Я получаю строки, состоящие из левого и правого столбцов, склеенных вместе, как "Получатель: Отправитель:"

Чего я хотел бы добиться, так это вывести вывод из левого и правого столбцов. Использование сторонних утилит Python для предварительной обработки изображения является приемлемым решением, если объяснить его достаточно подробно. Скрипт должен быть автономным и как-то определять эту проблему, поскольку не все буквы имеют такое странное форматирование.

Пробовал / идеи:

С помощью --psm 1 чтобы разрешить обнаружение формата ввода - без улучшения по умолчанию, вероятно, потому что структура слишком сложна.

Настройка некоторых параметров файла конфигурации, таких как gapmap_use_ends а также textord_words_maxspace - Я не смог найти хорошую документацию по этим вопросам, и, вероятно, существует правильная комбинация значений, но есть 57 вариантов с "пробелом" в названии... любое понимание этих вопросов будет высоко оценено.

Редактирование .hocr - не уверен, как написать соответствующие правила группировки для блоков слов, которые не мешают нормальному тексту везде...

2

ocr python-tesseract text-recognition hocr

Источник

user3279307 29 сен '18 в 19:26

0 ответов

Другие вопросы по тегам ocr python-tesseract text-recognition hocr