pytesseract: извлечение данных из идентификаторов документов с помощью блоков
Я работаю над извлечением данных из идентификаторов, и мне нужно извлечь личные данные, такие как имя, данные о рождении и т. Д.
Я попробовал Pytessaract, просто предоставив ему целое неразрезанное изображение удостоверения личности:
txt = tool.image_to_string(
Image.open('main.jpeg'),
lang=lang,
builder=pyocr.builders.TextBuilder())
И это возвращает:
u'9":\nREPUBLIKA XXXX %. OSOBNAi\ufb01KAZNICA\n\n \n\n \n\nREPUBLIC OF XXX IDENTITY CARD\n\u2019 Surname\n XXX -_\n\u201dno/Nam.\nTXXX\n1041mm} W\u201c W\u201c\n32mm? \xb0"""\u201c\u201c\xb0 Km\nMm mam\npom/5mm:- medium'
что не так хорошо.
Я подумал, может быть, можно дать позицию pytesseract, где искать? Вид коробок... если это не очень хорошая идея, где мне искать?
Еще немного, все идентификаторы имеют одинаковый шаблон. В настоящее время я не заинтересован в шествии.
Пример:
1 ответ
Вы также можете использовать наше стандартное программное обеспечение, которое поддерживает отправленный вами документ.
Вы можете найти больше информации о decodingArea и Templating API здесь: https://github.com/BlinkID/blinkid-ios/wiki/Using-Templating-API
Кроме того, вот образец коробок вокруг фамилии:
Это только пример фамилии, но мы уже добавили поддержку старого и нового идентификатора, а также всю информацию с передней и задней стороны.
ОТКАЗ ОТ ОТВЕТСТВЕННОСТИ: Я работаю в компании, которая создала BlinkID Templating API.
С уважением