Извлечение PDF-текста в Задаче C
До этого момента я не нашел решения, которое бы хорошо работало для извлечения текста из PDF-файла в Objective C для использования на iPhone. Я нашел какой-то стандартный код C и изменил его для работы, и подумал, что приведу его здесь, так как до этого момента я довольно часто использовал stackru, но никогда не возвращался. Вы можете получить его здесь: https://bitbucket.org/zachron/pdfiphone/overview
Он принимает в качестве входных данных путь к файлу PDF и возвращает строку текста в файле PDF. Я не написал большую часть этого, но я изменил его так, чтобы он работал с iPhone и Objective C. Вам нужно включить библиотеку Zlib в ваш проект (libz.dylib на iPhone), если кто-то возьмется за это и сделает это более круто, это хорошие времена.
1 ответ
Имейте в виду, что это будет работать только для извлечения текста, который хранится как таковой в PDF. Это не будет OCR отсканированных PDF-файлов. Если вы хотите сделать это, вы можете использовать Tesseract, надежный Google и механизм распознавания FOSS. Он компилируется на iPhone: см. Демонстрационный пример Тессеракта-iPhone Нолана Брауна. Библиотека изображений ImageMagic также компилируется на iPhone и позволит вам конвертировать PDF в TIFF, который Tesseract принимает в качестве входных данных.