Улучшение результатов оптического распознавания текста с помощью размытого текста

Я работаю над распознаванием печатного текста. В частности, я сосредотачиваюсь на этапе предварительной обработки, чтобы улучшить результаты двигателя Тессеракта. Я уже добился хороших результатов с помощью адаптивного порогового значения, удаления шума, выравнивания текста и т. Д. Но, тем не менее, Tesseract, похоже, дает сбой, когда другой коммерческий продукт дает достойные результаты.

Я использовал следующее тестовое изображение, и вот результаты, полученные с Tesseract 3.04 по сравнению с двумя коммерческими API OCR. Все 3 сервиса были предоставлены с одним и тем же двоичным изображением, содержащим слегка размытый текст.

Текстовое изображение, использованное для сравнения 3 продуктов OCR

Тессеракт

Careers in Technology Consulting

Networking Lunch
21 m 2014, 11:00 - 14:30

Definingthecorporatellstmtegy, Wammmwdngdeal, creating
uniquebwinessisighnwilgbigdam-doesflismflxemmyouafioy?

Findoutmoreabanhowitfeektomkasatedlflogymbyjoiningour

for further mm please visit mAeloittexom/weers

ABBYY Fine Reader Online

Careers in Technology Consulting
Networking Lunch
21 November 2014,1140-14:30
Defining the corporate IT strategy, planning a multHnKon <Mar outsourcing deal, creating unique business insights using big data-doesthis sound Ifce something you enjoy?
Find out more about hour it feels to work as a technology consultant by joining our exclusive networking lunch,
For further information please visit wrwMuleloittexom/carcert

OCR онлайн

Careers in Technology Consulting Networking Lunch 21 November 2014, 11;00 —14:30 
Defining the corporate IT strategy, planning a muiti-indlimi dollar outsourcing deal, creating unique business insights using big data—does this sound like something you enjoy? 
Find out more about how it feels to work as a tedmology consultant by joining our exclusive networking lunch, 
For further information' please visit wwwdeloitte,com/careers 

Теперь мне интересно, вызван ли большой разрыв между Tesseract и другими двумя продуктами из-за другого механизма (наверняка ABBYY использует свой собственный механизм, не уверен в веб-службе OCR) или есть какие-то другие шаги предварительной обработки, которые можно выполнить перед запуском Tesseract, У вас есть какие-нибудь предложения?

1 ответ

Вот предложение для "волшебной" предварительной обработки OCR. Чтобы объяснить принцип предложенной идеи предварительной обработки, давайте рассмотрим отрывок из предоставленного текстового изображения, на котором все протестированные OCR потерпели неудачу:

исходное изображение

и применить к нему некоторую "мудрость предварительной обработки". Сначала обычный порог:

пороговое изображение

и затем некоторая "магия", стреляя вертикальными линиями через элементы слова, обнаруживая макс. 2 бара высотой в 2 пикселя и обрезка их по краям, а также сокращение слова-элемента до его нижней строки:

после извлечения

Теперь переключаемся от стреляющих линий через слова-элементы в этом изображении от вертикальных к горизонтальным, чтобы обнаружить очень широкие "полосы" и разрезать их вертикально по середине их ширины:

после разделения сросшихся персонажей

Это должно помочь любому OCR-движку обеспечить лучшие результаты на этом конкретном изображении. Я могу себе представить, что некоторые коммерческие OCR-движки используют этот подход, уже способный обеспечить лучшее признание, чем протестированные.

В этом контексте позвольте мне упомянуть еще один бесплатный OCR-движок, доступный в репозиториях Ubuntu (сравнимый с tesseract). Тестируя их друг против друга, вы можете еще больше удивиться, почему они дают разные результаты, а затем посмотреть на свой исходный код, чтобы узнать:) и извлечь из этого опыта кое-что о коммерческих.

sudo apt-get install cuneiform gocr ocrad
Другие вопросы по тегам