Извлечение PDF-текста в Задаче C

Question

Извлечение PDF-текста в Задаче C

До этого момента я не нашел решения, которое бы хорошо работало для извлечения текста из PDF-файла в Objective C для использования на iPhone. Я нашел какой-то стандартный код C и изменил его для работы, и подумал, что приведу его здесь, так как до этого момента я довольно часто использовал stackru, но никогда не возвращался. Вы можете получить его здесь: https://bitbucket.org/zachron/pdfiphone/overview

Он принимает в качестве входных данных путь к файлу PDF и возвращает строку текста в файле PDF. Я не написал большую часть этого, но я изменил его так, чтобы он работал с iPhone и Objective C. Вам нужно включить библиотеку Zlib в ваш проект (libz.dylib на iPhone), если кто-то возьмется за это и сделает это более круто, это хорошие времена.

53

c objective-c iphone pdf

Источник

user356725 02 июн '10 в 17:55

1 ответ

Другие вопросы по тегам c objective-c iphone pdf

user582542 25 фев '11 в 21:59 2011-02-25 21:59 · Answer 1 · 2011-02-25 21:59

Имейте в виду, что это будет работать только для извлечения текста, который хранится как таковой в PDF. Это не будет OCR отсканированных PDF-файлов. Если вы хотите сделать это, вы можете использовать Tesseract, надежный Google и механизм распознавания FOSS. Он компилируется на iPhone: см. Демонстрационный пример Тессеракта-iPhone Нолана Брауна. Библиотека изображений ImageMagic также компилируется на iPhone и позволит вам конвертировать PDF в TIFF, который Tesseract принимает в качестве входных данных.