Невозможно проанализировать pdf от Jpedal

Я столкнулся с проблемой при разборе PDF с Jpedal.

Читая wordlist из Jpedal, я получаю искаженные символы в wordslist, Это также происходит при использовании OCR, а также когда я копирую текст из PDF и вставляю его в Word или простой текстовый редактор. Насколько я понимаю, этот PDF был создан с помощью Quartz PDF context в MAC OS X 10.6.4, который используется для сжатия размера файла, но легко доступен для просмотра PDF-программами. Я искал любой API Java, поддерживающий декодирование этого вида PDF, но безуспешно. Я ищу любое приложение или Java API, которые я могу использовать для его декодирования; должен использоваться на машине с Linux.

1 ответ

Привет всем

Я выкладываю возможное решение проблемы. Вот ссылка, описывающая, как кварц анализирует PDF-файл и, конечно же, который должен быть реализован в коде, потому что до сих пор я не нашел готового API для него, и я считаю, что stackru - это всего лишь инициатива, и я отвечаю на вопросы, которые не было сделано или спросили раньше.

С уважением

Rituraj

Другие вопросы по тегам