Специальный словарь

Question

Специальный словарь

В настоящее время я работаю над небольшим проектом с Finereader 11 SDK. Чтобы улучшить свои результаты, мне нравится работать со специальным словарем. Содержание словаря основано на первом слове определенной строки

Пример:

Samsung Galaxy S3 ... many other word in this line
Apple Iphone 4 ... much more words
some more lines

Моя идея состоит в том, чтобы пересчитать первое слово ( Samsung или Apple) и заполнить словарь всеми возможными словами, основанными на первом (для Samsung: Galaxy, S3, ...)

Любая идея, как решить эту проблему с Finereader

С уважением

1

ocr abbyy finereader

Источник

user1105968 30 июл '14 в 21:17

1 ответ

Решение

Другие вопросы по тегам ocr abbyy finereader

user653904 06 авг '14 в 06:01 2014-08-06 06:01 · Accepted Answer · 2014-08-06 06:01

Спасибо тебе за пояснение. Так вот, что вы можете сделать по моему мнению. Это относится к продуктовой линейке FineReader, и, конечно, в SDK вы имеете более специфический контроль через API.

FineReader OCR имеет следующие словари:

Встроенный словарь - большой набор общих слов и их вариаций, одна из сильных сторон технологии ABBYY OCR. Он не содержит специализированных слов, таких как, например, "Samsung" и "S3". Выбирая популярный язык, вы автоматически включаете встроенный словарь для этого языка.
Пользовательский словарь - это словарь, который вы можете построить и использовать отдельно или в сочетании со встроенным словарем.

Поэтому для вашего проекта, я думаю, имеет смысл использовать встроенный словарь, потому что ваши фразы могут содержать стандартные английские слова (вы не предоставили мне полных фраз, чтобы я мог их увидеть, поэтому решите сами).

Я также твердо верю, что вам нужно создать собственный словарь с брендами и моделями и т. Д. Если у вас есть такая опция и звучит так, как вы. Это значительно улучшит распознавание, особенно для неестественных слов, таких как "S3", потому что общие правила языка указывают, что буквы и цифры не должны смешиваться. Это очень легко сделать.

В настоящее время я не вижу преимущества чтения каждой строки отдельным словарем, если только вы не уверены, что у вас будет пересечение очень похожих слов, применимых к разным строкам, и вы хотели бы, чтобы эти слова были в отдельных словарях и относительно каждой строки. Затем вы можете создать отдельные словари и включить каждый словарь для вторичного распознавания на основе исходного слова. Однако, чтобы достичь этого, вам нужно сначала разделиться на строки (в памяти или на самом деле обрезать изображения), чтобы иметь возможность обрабатывать каждую отдельно с помощью уникального словаря. Это возможно только в SDK с большим объемом работы.