Pdf анализ текста с использованием Java

У меня та же проблема извлечения арабского текста из PDF-файла, может ли кто-нибудь помочь, если есть решение??? Я пытался много раз с pdfbox, но безрезультатно.

1 ответ

Есть несколько вещей, которые могут пойти не так при извлечении текста из PDF:

  1. PDF зашифрован. В этом случае вам нужен пароль для извлечения данных.
  2. PDF как формат не предназначен для извлечения текста. Поэтому pdfbox обычно пытается идентифицировать символы, расположенные близко друг к другу, и объединять их в слова. Как вы можете изображения, это может легко пойти не так.

Проверьте этот вопрос для получения дополнительной информации.

Другие вопросы по тегам