Как отсканированную страницу можно разделить на слова, например, проект reCaptcha?

Question

Как отсканированную страницу можно разделить на слова, например, проект reCaptcha?

Я хотел бы оцифровать книгу аналогично проекту reCaptcha. Есть ли уже система для ввода изображения, а затем вывода небольших изображений, обрезанных вокруг слов? Есть идеи, как это сделать?

-1

ocr scanning crowdsourcing crowdflower

Источник

user538034 27 сен '15 в 11:39

2 ответа

Другие вопросы по тегам ocr scanning crowdsourcing crowdflower

user3389585 27 сен '15 в 11:44 2015-09-27 11:44 · Answer 1 · 2015-09-27 11:44

Вы должны заглянуть в проект Tesseract OCR, на котором, вероятно, был основан reCaptcha. Имеет возможность выводить координаты распознанных слов. Затем вы обрезаете страницу до этих координат, и все готово.

0

Источник

user3389585 27 сен '15 в 11:44

user4556546 01 окт '15 в 14:49 2015-10-01 14:49 · Answer 2 · 2015-10-01 14:49

Если вы просто хотите разделить изображение на несколько изображений по одному слову, вы можете попытаться найти ограничивающие текстовые рамки, а затем взять эти координаты для разделения. Это можно сделать, взяв гистограммы / проекции документа в горизонтальном направлении, а затем для каждой линии в вертикальном направлении. Пример алгоритма с несколькими картинками, описывающими идею, можно найти в этой статье: "Декомпозиция страницы документа с помощью метода проекции ограничивающей рамки" ( http://haralick.org/conferences/71281119.pdf). Вы можете реализовать это в OpenCV.

В качестве альтернативы, вы можете использовать Tessaract, как упомянуто beppe9000. Возможно, это поможет: получить ограничивающую рамку распознанных слов с помощью python-tesseract

Но тогда вы получаете всю сложность обучения OCR, даже если вам нужны только ограничительные рамки.