pytesseract пытается распознать чистые черно-белые картинки с номерами шрифтов и 7-ю сегментными цифрами (python)

Я пытался заставить тессеракт распознать числа на этом изображении: Отфильтрованный Img

но при запуске скрипта вывод пуст, то есть он не может

Есть идеи, как заставить это работать? не похоже, что преобразование изображения в текст будет плохим, и то же самое происходит с 7-сегментными цифровыми цифрами, и при попытке запустить tesseract для более шумной цветной версии этого изображения это на самом деле хорошо работает в этом примере:

Шумный img

Любые советы о том, как заставить его работать?

Спасибо за помощь

1 ответ

Тессеракт очень чувствителен к границам изображения, так что добавление около 20 пикселей вокруг отфильтрованного изображения решит проблему.

Что касается 7-сегментного шрифта, как указано в проблеме с тессерактом, LSTM (tess 4.*) может быть не лучшим подходом, и есть разные библиотеки, которые могут справиться с этим лучше. Вы можете попробовать эти tessdata для tesseract 3.4;

Другие вопросы по тегам