Почему DPI имеет значение для изображений, снятых камерой для распознавания текста

Question

Почему DPI имеет значение для изображений, снятых камерой для распознавания текста

В настоящее время я работаю над проектом, который включает использование механизма распознавания текста Tess4j Tesseract. Работая над этим проектом, я посещаю множество веб-сайтов, которые утверждают, что Tesseract лучше всего работает с изображениями с разрешением не менее 300 точек на дюйм (точек на дюйм).

Мой вопрос, почему DPI упоминается так много раз для изображений. Я понимаю, что когда вы сканируете объект, вы хотите сканировать его с разрешением не менее 300 DPI. Я просто не могу понять, почему это актуально для снимков, сделанных камерой. DPI это насколько я знаю свойство для принтера. Основываясь на этом свойстве, чем выше оно, тем меньше изображение, но с большим качеством.

Теперь, если DPI не имеет ничего общего с этими изображениями, я задаюсь вопросом, почему результаты в моей программе отличаются, когда я изменяю свойство DPI изображений между 72 и 300. Есть ли предварительная обработка Tesseract, о которой я не знаю?

2

ocr tesseract dpi image-preprocessing tess4j

Источник

user3206159 12 апр '17 в 07:29

1 ответ

Другие вопросы по тегам ocr tesseract dpi image-preprocessing tess4j

user754060 13 апр '17 в 14:50 2017-04-13 14:50 · Answer 1 · 2017-04-13 14:50

На самом деле, это размер текста в определенном DPI.

Существует ли минимальный размер текста? (Он не будет читать текст на экране!)
Существует минимальный размер текста для разумной точности. Вы должны учитывать разрешение, а также размер точки. Точность падает ниже 10 точек на 300 точек на дюйм, быстро ниже 8 точек на 300 точек на дюйм. Быстрая проверка состоит в подсчете пикселей высоты х ваших персонажей. (Высота X - это высота нижнего регистра x.) При 10pt x 300dpi высота x обычно составляет около 20 пикселей, хотя это может значительно варьироваться от шрифта к шрифту. Ниже x-высоты 10 пикселей у вас очень мало шансов на получение точных результатов, а ниже примерно 8 пикселей большая часть текста будет "удалена".

https://github.com/tesseract-ocr/tesseract/wiki/FAQ