OCR с открытым исходным кодом

Question

OCR с открытым исходным кодом

Я ищу OCR-библиотеку с открытым исходным кодом, которая работает в Linux. Мне это нужно для работы с PNG и PDF. В основном я хотел бы связать эту библиотеку с Java или Ruby. Любая идея, если есть что-нибудь доступное?

С уважением.

17

java ruby linux pdf ocr

Источник

user638983 01 мар '11 в 07:55

3 ответа

Другие вопросы по тегам java ruby linux pdf ocr

user625158 01 мар '11 в 08:05 2011-03-01 08:05 · Answer 1 · 2011-03-01 08:05

Tesseract - очень хороший механизм распознавания текста: https://github.com/tesseract-ocr/tesseract

Проект был запущен HP Labs и в настоящее время продолжается и финансируется Google (для Google Книги!). Он выпущен под лицензией Apache и работает на Linux. Он использует файлы Tiff или PNG; для PDF-файлов вам потребуется конвертировать в один из этих форматов. Я полагаю, что нет привязки, поэтому вы должны вызвать это программное обеспечение как подпрограмму...

user479989 01 мар '11 в 08:04 2011-03-01 08:04 · Answer 2 · 2011-03-01 08:04

Cuneiform свободна и делает достойную работу. Вы могли бы вызвать его как подпрограмму, но я не знаю языковой привязки. Он не будет читать PDF-файлы напрямую, но вы можете легко разбирать PDF-файлы, которые представляют собой последовательности отсканированных изображений, чтобы передавать их в Cuneiform. Существуют также сценарии для сборки изображений и текста обратно в PDF с возможностью поиска.

user754060 15 май '11 в 00:27 2011-05-15 00:27 · Answer 3 · 2011-05-15 00:27

Попробуйте tesjeract, который использует JNI для вызова Tesseract OCR API.

Для PDF вам необходимо сначала преобразовать их в изображение, например, с помощью GhostScript.

0

Источник

user754060 15 май '11 в 00:27