pdf анализ текста в java
У меня есть арабский PDF, и я хочу разобрать его в текстовый документ с помощью Java. Я пробовал много раз, и английские слова успешно разбираются, а арабские - нет.
Может ли кто-нибудь порекомендовать решение, которое будет правильно преобразовывать арабские слова?
2 ответа
Решение
Я думаю, что вы можете использовать iText для PDF-манипуляции с использованием Java. Он также поддерживает арабский язык.
Есть несколько библиотек, которые приходят на ум. Apache Tika, iText или pdfbox более или менее решат вашу проблему. Хотя я должен добавить слово для Tika, поскольку оно поддерживает определение языка, а также может обрабатывать и другие типы документов.