Pdf анализ текста с использованием Java
У меня та же проблема извлечения арабского текста из PDF-файла, может ли кто-нибудь помочь, если есть решение??? Я пытался много раз с pdfbox, но безрезультатно.
1 ответ
Есть несколько вещей, которые могут пойти не так при извлечении текста из PDF:
- PDF зашифрован. В этом случае вам нужен пароль для извлечения данных.
- PDF как формат не предназначен для извлечения текста. Поэтому pdfbox обычно пытается идентифицировать символы, расположенные близко друг к другу, и объединять их в слова. Как вы можете изображения, это может легко пойти не так.
Проверьте этот вопрос для получения дополнительной информации.