Обработка лигатур в Apache Tika
Тика, похоже, не распознает лигатуры (fi, ff, fl...) в файлах PDF и заменяет их вопросительными знаками.
Любая идея (не только на Тика), чтобы извлечь PDF-текст при преобразовании символьных лигатур в отдельные символы?
File file = new File("path/to/file.pdf");
String text = Tika().parseToString(file);
редактировать
Мой PDF-файл в кодировке UTF-8 (вот что InputStream.getEncoding()
говорит), моя платформа кодировки также UTF-8. Даже с -Dfile.encoding=UTF8
, это не работает.
Например, у меня должны быть: "различные имплементации" ... и это то, что я действительно получаю: "различные имплементации"