Pdf анализ текста с использованием Java

Question

Pdf анализ текста с использованием Java

У меня та же проблема извлечения арабского текста из PDF-файла, может ли кто-нибудь помочь, если есть решение??? Я пытался много раз с pdfbox, но безрезультатно.

0

java arabic pdf-extraction

Источник

user1081293 05 дек '11 в 10:07

1 ответ

Другие вопросы по тегам java arabic pdf-extraction

user218454 05 дек '11 в 10:12 2011-12-05 10:12 · Answer 1 · 2011-12-05 10:12

Есть несколько вещей, которые могут пойти не так при извлечении текста из PDF:

PDF зашифрован. В этом случае вам нужен пароль для извлечения данных.
PDF как формат не предназначен для извлечения текста. Поэтому pdfbox обычно пытается идентифицировать символы, расположенные близко друг к другу, и объединять их в слова. Как вы можете изображения, это может легко пойти не так.

Проверьте этот вопрос для получения дополнительной информации.