ICR для машинного печатного текста?

Я знаю, что ICR в основном используется для распознавания рукописных (напечатанных вручную) данных, но можем ли мы использовать ICR для случайного извлечения искаженного (плохого качества) машинного печатного текста?

Если нет, то каков наилучший способ решить следующую проблему?

У меня есть неструктурированный документ, который может занимать 2 или более страниц, так как в документе есть несколько полей даты, которые будут написаны от руки. Теперь я хочу преобразовать это в текстовый файл. Я пробовал некоторые инструменты ocr(omnipage, abbyy и т. Д.), Которые содержат модули ICR для преобразования в текстовый файл. они хороши в распознавании страниц на всю страницу, но когда он встречает рукописную дату, он помещает ненужный символ вместо использования там модуля ICR. Я не хочу использовать инструменты обработки форм, такие как parascript и A2ia, которые основаны на позициях и работают только со структурированным документом.

или мы можем использовать ICR для преобразования машинного печатного текста и рукописного (в любом случае это будет работать для даты возврата вручную)

здесь моя цель - получить вывод текстового файла из неструктурированного документа с небольшим количеством рукописного текста (например, даты, числа)

1 ответ

Я пробовал некоторые инструменты ocr(omnipage, abbyy и т. Д.), Которые содержат модули ICR

Это неверно, что объясняет плохой результат. Если вы пробовали розничные версии OmniPage и ABBYY FineReader, эти пакеты программного обеспечения предназначены только для распознавания текста без поддержки ICR.

Я не хочу идти с инструментами обработки форм

Возможно, вам придется каким-то образом, но есть несколько вариантов подхода. Это должен быть брак двух технологий, либо готовых, либо самостоятельно созданных, но для этого потребуется больше усилий, чем просто установить и запустить его.

Сегодня предполагается, что не существует неструктурированного текстового программного обеспечения ICR, которое могло бы обеспечить высококачественный результат. OCR на всей странице или неструктурированный текст OCR (машинный текст) дает высококачественный результат для машинного текста и мусор при рукописном вводе. Вы правы, что ICR подразумевает зональное распознавание, которое позволяет предоставлять типы данных и внутренние словари для улучшенного распознавания рукописного ввода.

Для самого простого и быстрого подхода, который также может быть наиболее экономичным и наименее трудоемким, я бы использовал неструктурированный пакет обработки форм, такой как ABBYY FlexiCapture ( http://www.wisetrend.com/abbyy_flexicapture.shtml). Требуется некоторая непрограммная настройка для "нахождения" зон. Зоны могут изменить положение, и это программное обеспечение все еще находит их, а затем использует соответствующий алгоритм (OCR/ICR) для чтения содержимого зон. Поддерживает OCR, ICR, OMR (галочки), BCR (штрих-код). Также имеется встроенная полная страница OCR. Я использую это программное обеспечение у себя дома, перепродаю и имею более 14 лет опыта в его тонкой настройке.

Для потенциально более экономичного способа, но который может потребовать ручного объединения по крайней мере двух технологий (две покупки вместо одной плюс рабочая сила - может быть не самым экономичным в конце дня), я бы использовал какой-то OCR SDK для машинного текста и какой-то ICR-совместимый SDK для рукописных зон. В зависимости от согласованности в расположении этих зон, вы можете просто указать координаты. Если они сдвигаются, то необходимо провести более глубокий анализ местоположения зон, чтобы передать их в ICR. Признанный ICR текст необходимо будет вернуть, чтобы вставить в соответствующие места среди текста OCRed.

По моему мнению, с помощью ряда инструментов, которые могут сделать это прямо из коробки, я бы использовал что-то из коробки вместо того, чтобы писать сам, потому что есть несколько основных проблем, которые необходимо решить: идентификация зоны, интеграция двух технологий, рабочий процесс, Мы сделали такую ​​интеграцию несколько лет назад, когда существующие инструменты не были доступны.

Другие вопросы по тегам