Извлечение текста из изображения с помощью tesseract
Я использую tesseract для извлечения текста из изображения. Однако есть некоторые проблемы, с которыми я сталкиваюсь с определенными изображениями:
Текст отлично получается из изображения ниже:
Тем не менее, текст не извлечен из изображения ниже, обратите внимание, что квадрат вокруг текста теперь стал меньше
Вопросы
что я могу сделать с исходным изображением, чтобы лучше извлечь текст из второго изображения. Я уже делаю изображение BW usint imagemagick's -monochrome
фильтр.
В изображениях мне все равно, кроме текста. Есть ли техника, которую я могу использовать, чтобы обрезать изображение и создать новое изображение только с белым фоном и текстом? Я не всегда буду знать координаты квадратного круга, поэтому мне понадобится функция обрезки, которая автоматически определяет координаты белого фона.