Изменение размера и порога маленьким шрифтом отсканированных арабских слов
Я работаю над арабским распознаванием текста для напечатанных отсканированных документов... Некоторые отсканированные документы могут быть написаны с размером шрифта высотой 8, что довольно мало... Я хочу изменить высоту до 60 пикселей, но некоторые артефакты могут возникать из-за характер арабских символов... некоторые символы могут перекрываться. Я использовал локальные методы определения порогов после изменения размера, но результаты все еще не приемлемы... какие-нибудь идеи?
Это пример изображения:
Это тот же пример после изменения размера и применения локальной адаптивной пороговой обработки с использованием 50 в качестве размера окна:
Как вы можете видеть, есть некоторые разрывы в некоторых персонажах, таких как этот:
Есть ли способ изменить размер изображения при сохранении текстовой формы?
Мой подход к исправлению разрывов символов:
Порог исходного изображения перед изменением размера с использованием локального адаптивного порога с использованием размера окна 16 (это решит разрывы символов, но отверстия в символах заполнены), назовите его
smallbw
,Изменение размера
smallbw
с помощьюimresize(smallbw, [nh nw], 'nearest')
и заполните отверстия в символах, используяimfill
Измените исходное изображение на высоту 60 пикселей, используя
imresize(originalIm, [nh nw], 'nearest')
назови этоlargebw
Заполните отверстия в
largebw
с помощьюimfill
и назовите этоbwfill
Извлечь отверстия из
largebw
отbwholes = bwfill - largebw
Наконец, вычесть
bwholes
отsmallbw
чтобы получить это
вы можете видеть здесь, что разрыв, обнаруженный в символе @Image 3, был решен... но есть другая проблема, поднятая здесь, некоторые символы могут перекрываться, как показано здесь
Это лучшие результаты, которых я мог достичь до сих пор... есть ли другие идеи, которые могут решить эти проблемы? и если вы думаете, что у этой проблемы нет решения, как бы я решил ее, а не использовал изменение размера? а как насчет использования текста размером 12 шрифтов вместо 8?
Полезные ссылки: Используется локальный адаптивный пороговый метод
Операционная система: Windows 7
Среда программирования: Matlab 2013a - набор инструментов для обработки изображений