Невозможно проанализировать pdf от Jpedal
Я столкнулся с проблемой при разборе PDF с Jpedal.
Читая wordlist
из Jpedal, я получаю искаженные символы в wordslist
, Это также происходит при использовании OCR, а также когда я копирую текст из PDF и вставляю его в Word или простой текстовый редактор. Насколько я понимаю, этот PDF был создан с помощью Quartz PDF context в MAC OS X 10.6.4, который используется для сжатия размера файла, но легко доступен для просмотра PDF-программами. Я искал любой API Java, поддерживающий декодирование этого вида PDF, но безуспешно. Я ищу любое приложение или Java API, которые я могу использовать для его декодирования; должен использоваться на машине с Linux.
1 ответ
Привет всем
Я выкладываю возможное решение проблемы. Вот ссылка, описывающая, как кварц анализирует PDF-файл и, конечно же, который должен быть реализован в коде, потому что до сих пор я не нашел готового API для него, и я считаю, что stackru - это всего лишь инициатива, и я отвечаю на вопросы, которые не было сделано или спросили раньше.
С уважением
Rituraj