pytesseract: извлечение данных из идентификаторов документов с помощью блоков

Я работаю над извлечением данных из идентификаторов, и мне нужно извлечь личные данные, такие как имя, данные о рождении и т. Д.

Я попробовал Pytessaract, просто предоставив ему целое неразрезанное изображение удостоверения личности:

txt = tool.image_to_string(
    Image.open('main.jpeg'),
    lang=lang,
    builder=pyocr.builders.TextBuilder())

И это возвращает:

u'9":\nREPUBLIKA XXXX %. OSOBNAi\ufb01KAZNICA\n\n \n\n  \n\nREPUBLIC OF XXX IDENTITY CARD\n\u2019 Surname\n XXX -_\n\u201dno/Nam.\nTXXX\n1041mm} W\u201c W\u201c\n32mm? \xb0"""\u201c\u201c\xb0 Km\nMm mam\npom/5mm:- medium'

что не так хорошо.

Я подумал, может быть, можно дать позицию pytesseract, где искать? Вид коробок... если это не очень хорошая идея, где мне искать?

Еще немного, все идентификаторы имеют одинаковый шаблон. В настоящее время я не заинтересован в шествии.

Пример:

1 ответ

Вы также можете использовать наше стандартное программное обеспечение, которое поддерживает отправленный вами документ.

Вы можете найти больше информации о decodingArea и Templating API здесь: https://github.com/BlinkID/blinkid-ios/wiki/Using-Templating-API

Кроме того, вот образец коробок вокруг фамилии: введите описание изображения здесь

Это только пример фамилии, но мы уже добавили поддержку старого и нового идентификатора, а также всю информацию с передней и задней стороны.

ОТКАЗ ОТ ОТВЕТСТВЕННОСТИ: Я работаю в компании, которая создала BlinkID Templating API.

С уважением

Другие вопросы по тегам