Как отфильтровать текстуру из изображения для распознавания текста

Question

Как отфильтровать текстуру из изображения для распознавания текста

Я пытаюсь сделать OCR для некоторых форм, которые, однако, имеют некоторые текстуры следующим образом:

Исходное изображение

Эта текстура заставляет программы OCR игнорировать ее, помечая ее как область изображения.

Я рассмотрел использование морфологии. Операция закрытия со звездочкой заканчивается следующим образом:

Закрытие операции

Этот результат все еще недостаточно хорош для распознавания текста.

Когда я вручную стираю "перец" и выполняю адаптивный порог изображения следующим образом, это дает хорошие результаты при распознавании текста:

Отредактировано и с порогом

У вас есть другие идеи по этой проблеме?

Спасибо

2

opencv image-processing ocr scikit-image leptonica

Источник

user1675422 16 сен '14 в 14:12

4 ответа

Другие вопросы по тегам opencv image-processing ocr scikit-image leptonica

user1196549 16 сен '14 в 14:40 2014-09-16 14:40 · Answer 1 · 2014-09-16 14:40

Для данного изображения медианный фильтр 5x5 работает немного лучше, чем закрытие. Оттуда бинаризация с адаптивным порогом может удалить больше фона.

В любом случае, полученное качество будет во многом зависеть от изображений, и идеальных результатов достичь невозможно.

введите описание изображения здесь

user1652461 16 сен '14 в 14:52 2014-09-16 14:52 · Answer 2 · 2014-09-16 14:52

Фоновый рисунок очень регулярный и направленный, поэтому фильтрация в области Фурье должна хорошо здесь работать. Попробуйте например фильтр Баттерворта

Конкретный пример такой фильтрации с использованием gimp можно найти здесь

1

Источник

user1652461 16 сен '14 в 14:52

user1919235 16 сен '14 в 14:51 2014-09-16 14:51 · Answer 3 · 2014-09-16 14:51

Возможно, посмотрите на это: https://code.google.com/p/ocropus/source/browse/DIRS?repo=ocroold (см. Ocr-doc-clean).

1

Источник

user1919235 16 сен '14 в 14:51

user1919235 16 сен '14 в 15:02 2014-09-16 15:02 · Answer 4 · 2014-09-16 15:02

Учитывая, что вы знаете размер шрифта, вы также можете использовать фильтрацию подключенных компонентов, возможно, в сочетании с морфологической операцией. Чтобы иметь возможность сохранить запятые, просто будьте осторожны, если меньший подключенный компонент находится рядом с компонентом, размер которого аналогичен символам, которые вы пытаетесь прочитать.