OCR с открытым исходным кодом
Я ищу OCR-библиотеку с открытым исходным кодом, которая работает в Linux. Мне это нужно для работы с PNG и PDF. В основном я хотел бы связать эту библиотеку с Java или Ruby. Любая идея, если есть что-нибудь доступное?
С уважением.
3 ответа
Tesseract - очень хороший механизм распознавания текста: https://github.com/tesseract-ocr/tesseract
Проект был запущен HP Labs и в настоящее время продолжается и финансируется Google (для Google Книги!). Он выпущен под лицензией Apache и работает на Linux. Он использует файлы Tiff или PNG; для PDF-файлов вам потребуется конвертировать в один из этих форматов. Я полагаю, что нет привязки, поэтому вы должны вызвать это программное обеспечение как подпрограмму...
Cuneiform свободна и делает достойную работу. Вы могли бы вызвать его как подпрограмму, но я не знаю языковой привязки. Он не будет читать PDF-файлы напрямую, но вы можете легко разбирать PDF-файлы, которые представляют собой последовательности отсканированных изображений, чтобы передавать их в Cuneiform. Существуют также сценарии для сборки изображений и текста обратно в PDF с возможностью поиска.
Попробуйте tesjeract, который использует JNI для вызова Tesseract OCR API.
Для PDF вам необходимо сначала преобразовать их в изображение, например, с помощью GhostScript.