Тессеракт OCR - укажите шаблон
Я пытаюсь выполнить OCR, используя Tesseract (версия 3.04.00). Все мои изображения имеют одинаковый шаблон (цифра точка цифра цифра, т. Е. Десятичная с точностью до 2 цифр). Я пытался использовать --user-patterns
вариант, но я не могу заставить его работать.
Что я сделал:
- создать файл
patterns.txt
с\d.\d\d
на первой линии - использовать опцию
--user-patterns patterns.txt
Но я получаю следующую ошибку:
pytesseract.pytesseract.TesseractError: (1, "Tesseract Open Source OCR Engine v3.04.00 with Leptonica read_params_file: Can't open 1 read_params_file: Can't open user-patterns read_params_file: parameter not found: \\d.\\d\\d")
Как я могу указать свой шаблон для Tesseract? Это даже правильный подход? Заранее спасибо за помощь или советы, я не нахожу много документов по Тессеракту.
РЕДАКТИРОВАТЬ: добавить код Python
img = cv2.imread("path/to/image", cv2.IMREAD_GRAYSCALE)
text = pytesseract.image_to_string(img, config="-psm 7 --user-patterns patterns.txt")
print(text)
1 ответ
Решение
Неважно, я думаю, что Тессеракт был излишним для моего использования.
Я взял изображение каждой цифры от 0 до 9 и выбрал минимальную среднеквадратичную ошибку с изображением, которое я хочу предсказать. Получил 100% точность в моем тестовом наборе данных.