Как распознать данные формы из разных полей формы, используя OCR в Java?

вот форма

У меня есть изображение формы, которое содержит различные поля, такие как имя, номер, адрес и т. Д. Я хочу распознать данные из этих полей и сохранить их в базе данных. Теперь мой OCR работает нормально, но я не знаю, как извлечь конкретные данные поля (имя, адрес) из изображения, которое будет использоваться для OCR. просто я хочу знать, как распознавать символы в выходных файлах из поля имени, поля адреса или любого другого поля.

1 ответ

У вас есть два решения для получения нужных вам данных: либо вы используете решение @ osiris, либо вам нужно добавить слой интеллектуального анализа текста. Первое решение: вы получаете изображение и режете его на куски (кусочки, которые содержат необходимые данные). Например, вы разрезаете изображение на 2 части, одну из которых содержит имя, а вторую - адрес, обрезая исходное изображение на основе положения полей (X и Y), и для этого вам нужно использовать библиотеку изображений для управления оригинальное изображение. Второе решение - использовать слой интеллектуального анализа текста без обрезки. В этом решении вы должны использовать модели, которые обнаруживают имена и адреса (duckling.ai), вы можете обучать свою собственную модель или даже использовать некоторые движки чат-ботов, и вы тренируете свой движок чат-ботов, чтобы обнаруживать имена и адреса как сущности (пересчитать)..ai или раса например).

Поскольку вы знаете точные области формы, в которых будут находиться различные поля, вы можете использовать некоторую библиотеку манипулирования изображениями, чтобы обрезать изображение и отправлять только определенные области в механизм распознавания.

Проверьте этот ТАК вопрос.

Другие вопросы по тегам