Тессеракт OCR - укажите шаблон

Я пытаюсь выполнить OCR, используя Tesseract (версия 3.04.00). Все мои изображения имеют одинаковый шаблон (цифра точка цифра цифра, т. Е. Десятичная с точностью до 2 цифр). Я пытался использовать --user-patterns вариант, но я не могу заставить его работать.

Что я сделал:

  • создать файл patterns.txt с \d.\d\d на первой линии
  • использовать опцию --user-patterns patterns.txt

Но я получаю следующую ошибку:

pytesseract.pytesseract.TesseractError: (1, "Tesseract Open Source OCR Engine v3.04.00 with Leptonica read_params_file: Can't open 1 read_params_file: Can't open user-patterns read_params_file: parameter not found: \\d.\\d\\d")

Как я могу указать свой шаблон для Tesseract? Это даже правильный подход? Заранее спасибо за помощь или советы, я не нахожу много документов по Тессеракту.

РЕДАКТИРОВАТЬ: добавить код Python

img = cv2.imread("path/to/image", cv2.IMREAD_GRAYSCALE)
text = pytesseract.image_to_string(img, config="-psm 7 --user-patterns patterns.txt")
print(text)

1 ответ

Решение

Неважно, я думаю, что Тессеракт был излишним для моего использования.

Я взял изображение каждой цифры от 0 до 9 и выбрал минимальную среднеквадратичную ошибку с изображением, которое я хочу предсказать. Получил 100% точность в моем тестовом наборе данных.

Другие вопросы по тегам