C# OCR не может распознать цифры (тессеракт 2)
Я пытаюсь извлечь цифры из следующего: http://img96.imageshack.us/img96/5630/aelgg.png
Не получается, я получаю ~ взамен. Я использую Google Tesseract 2, используя C# (обертку с открытым исходным кодом C#), и теперь мне интересно, это изображение слишком дерьмовое, чтобы использовать его для распознавания текста?
Потому что имхо цифры понятны.
У вас есть какой-нибудь другой механизм распознавания текста, который бы это зацепил?
РЕДАКТИРОВАТЬ
Я также пытался с Asprise OCR ( http://asprise.com/product/ocr/selector.php), но он не может проанализировать изображение тоже...
2 ответа
Я предлагаю изменить размер. Я увеличил эту страницу до 200% в IE, сделал снимок экрана, распечатал его в PDF и импортировал в свою программу, которая использует tessnet. Тесс прибила это! Если я не прочитал #s неправильно:-)
Хотя уверенность = 140 (менее 100 предпочтительнее, если вам интересно). Конечно, когда я попробовал оригинальный размер, я не получил ~; Я получил около 1/2 правильных букв, кучу писем и прочую фигню. Не достаточно хорошо, но лучше.
T2, кажется, любит изображения определенного размера.
Моя программа выполняет обработку, чтобы заставить это работать. Предложите использовать.net GDI+ для преобразования в 32-битные с изменением размера в режиме интерполяции High Quality Bicubic. Кажется, это немного "заполняет пробелы".
Поиграйте с размерами, которые работают - я обнаружил, что они слишком большие или слишком маленькие, и тессеракт работает по-другому.
Обе проблемы - это предварительная обработка, это легко, и вы, наверное, попробуете использовать tesseract; однако я знаю, как изменить размер и интерполировать; Я не знаю, как распознать! Так что я готов поселиться.
Разрешение вашего изображения слишком низкое - 96 точек на дюйм, возможно, это скриншот. Масштабируйте его до 300 DPI, и tessnet2 сможет его распознать.