OCR: извлечение текста из изображения

Я работаю над программой для извлечения текста из изображения. Для этого я пытался с Tessaract а также Ocropus библиотеки и я могу конвертировать простой простой текст (черный и белый с простым шрифтом) из изображения в текстовую строку. Например:

Пример изображения 1

Но я не могу извлечь текст из сложного изображения. Скажем, например, из этого изображения:

Пример изображения 2

Кто-нибудь знает, как этого добиться? Есть ли какая-либо библиотека для извлечения текста из сложных изображений (с непредсказуемым различным фоном? Я предпочитаю Python, но язык - это не бар.

1 ответ

То, как вся эта работа по распознаванию слов заключается в алгоритме машинного обучения, дает много изображений с уже интерпретированным соответствующим текстом. Он учится понимать буквы от разных шрифтов и внешности, которые ему даны.

Тем не менее, логотипы сделаны с очень специфическим шрифтом. Почти нет двух логотипов, использующих подобный. Это делает очень трудным, если не невозможным, создание обучающих данных для распознавания написанного.

Можно обучить алгоритм распознавания торговой марки Sprite везде, где она ее видит. Для этого вам нужно будет использовать OpenCV и обучить его на логотипах Sprite разных качеств, изображениях логотипов Sprite в магазинах, бутылках и т. Д. Таким образом, вы сможете увидеть этот конкретный логотип (вам также понадобится набор данных не-Sprite логотипов, таких как логотип кока-колы или изображение чего-то совершенно не относящегося к делу, например, кошка).

Причины, по которым люди, в отличие от компьютеров, могут научиться распознавать эти вещи, заключаются в том, что человеческий мозг настолько мощнее, чем нейронная сеть, которую вы можете создать, чтобы понимать подобные вещи в компьютере. Когда компьютеры станут такими же мощными, как люди, с точки зрения вычислительной мощности, повторно задайте этот вопрос, и вы получите автоматический ответ от машины, похожей на человека.

Другие вопросы по тегам