Чтение текста из PDF с помощью CGPDFScanner - что не так с этим файлом PDF?

Question

Чтение текста из PDF с помощью CGPDFScanner - что не так с этим файлом PDF?

Я пытаюсь извлечь текст из этого файла:

https://www.dropbox.com/s/249snnj1nsve5ir/Lebenslauf.pdf?dl=0

используя CGPDFScanner. Я могу обнаружить, что кодировка символов - это WinAnsiEncoding из включенного словаря PDF, но все символы искажены. В качестве перекрестной проверки я попытался скопировать вставляемый текст из приложения "Просмотр" в Mac OS X, которое работает - так что каким-то образом его можно извлечь как строки. С другой стороны, коммерческий сторонний фреймворк http://www.fastpdfkit.com/ не может правильно извлечь текст.

У кого-нибудь есть идея, по чему я скучаю?

Как примечание, я использовал https://github.com/KurtCode/PDFKitten для сканирования PDF.

0

ios pdf character-encoding cgpdf cgpdfscanner

Источник

user1195076 17 апр '15 в 08:36

0 ответов

Другие вопросы по тегам ios pdf character-encoding cgpdf cgpdfscanner