Как улучшить результаты тессеракта для распознавания чисел

Я работаю над приложением для iPhone, которое распознает номера ISBN (ISBN: 978-83-7380-900-0). Я использую для этого тессеракт, но он работает не очень хорошо. Я вижу другие приложения, использующие тот же движок для лучшей работы.

чтобы ограничить число символов, я использую эту строку конфигурации: tess->SetVariable("tessedit_char_whitelist", "SN:0123456789X-"); поэтому все "я" преобразуются в "1", а "В" - в 8. Используя это, вы не ошибетесь с этими буквами, поэтому мне это не важно. После этого я использую регулярное выражение, чтобы найти правильную часть распознанного текста.

Я также обрезаю изображение, поэтому tesseract распознает только часть изображения, где виден isbn (я поместил цветной прямоугольник на оверлей камеры, поэтому пользователь должен разместить код в правильном месте). Я также изменил размер изображения до ширины 1000 пикселей (также пробовал другие размеры)

Он работает довольно хорошо, когда освещение отличное, но действительно трудно правильно распознать, когда освещение не идеальное.

Последняя цифра номера isbn является контрольной суммой.

Что я могу сделать, чтобы это работало лучше? Можно ли сказать, что tesserect распознает текст только в заданном регулярном выражении? Может быть, я должен сначала сделать что-то с изображением?

Примеры изображений, которые не распознаются правильно:
http://img412.imageshack.us/i/img0367si.jpg/
http://img264.imageshack.us/i/img0361d.jpg/

1 ответ

Я использовал некоторую предварительную обработку и результаты довольно хороши в данный момент. (нормализация и автоматический порог) я делаю это с простой обработкой изображения для iphone. Я также делаю изображения с 2-кратным увеличением. Единственная проблема заключается в том, что очень просто сделать нечеткое изображение, а потом невозможно что-либо распознать. Процесс распознавания ocr занимает приблизительно 4 с. и он работает на изображении 300 x 109: 19 КБ. Мне просто интересно, что я могу сделать, чтобы он работал быстрее, поэтому я мог бы сделать несколько снимков и обработать их все.

Другие вопросы по тегам