OpenCV - извлечение нечеткого текста для распознавания текста

Я пытаюсь извлечь текст из зашумленных изображений с помощью Pytesseract OCR. У меня возникают трудности при извлечении / очистке текста из изображений, чтобы он был в формате, подходящем для Pytesseract. Мой текущий подход заключается в том, чтобы найти область текста, затем найти доминирующий цвет в этой области (который обычно будет текстом) и, наконец, применить фильтр NOT, чтобы все в диапазоне доминирующих цветов было установлено равным 1, а все остальное установлен на 0.

Когда изображения, подобные приведенным ниже, создаются с использованием этого метода, Pytesseract способен распознавать текст.

Однако при создании этих изображений Pytesseract не может распознать какой-либо текст. Я считаю, что это потому, что извлеченный текст не работает.

Я попытался использовать размытие по Гауссу, затем адаптивное определение пороговых значений, эрозию, расширение и, наконец, создание контуров на извлеченных текстовых изображениях выше, однако эти результаты все еще не являются адекватными. Мне было интересно, как я должен извлечь текст. Это проблема с первоначальным извлечением текста (используя наиболее доминирующий цвет), или проблема с восстановлением поврежденного текста (как показано выше)?

Входное изображение:

0 ответов

Другие вопросы по тегам