Обработка лигатур в Apache Tika

Тика, похоже, не распознает лигатуры (fi, ff, fl...) в файлах PDF и заменяет их вопросительными знаками.

Любая идея (не только на Тика), чтобы извлечь PDF-текст при преобразовании символьных лигатур в отдельные символы?

File file = new File("path/to/file.pdf");
String text = Tika().parseToString(file);

редактировать

Мой PDF-файл в кодировке UTF-8 (вот что InputStream.getEncoding() говорит), моя платформа кодировки также UTF-8. Даже с -Dfile.encoding=UTF8, это не работает.

Например, у меня должны быть: "различные имплементации" ... и это то, что я действительно получаю: "различные имплементации"

0 ответов

Другие вопросы по тегам