pdf анализ текста в java

У меня есть арабский PDF, и я хочу разобрать его в текстовый документ с помощью Java. Я пробовал много раз, и английские слова успешно разбираются, а арабские - нет.

Может ли кто-нибудь порекомендовать решение, которое будет правильно преобразовывать арабские слова?

2 ответа

Решение

Я думаю, что вы можете использовать iText для PDF-манипуляции с использованием Java. Он также поддерживает арабский язык.

Есть несколько библиотек, которые приходят на ум. Apache Tika, iText или pdfbox более или менее решат вашу проблему. Хотя я должен добавить слово для Tika, поскольку оно поддерживает определение языка, а также может обрабатывать и другие типы документов.

Другие вопросы по тегам