Тика не может правильно читать текст из файла PDF
Я новичок в Apache Тика.
У меня есть два файла PDF с другим шрифтом, но tika не может правильно читать, у одного шрифт Shruti, который правильно читается с помощью tika, но у другого файла шрифт lmg-rupen, который не читается правильно с tika, есть ли какой-то конкретный шрифт, читаемый tika?
ниже приведен мой фрагмент кода:
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(file);
ByteArrayOutputStream out = new ByteArrayOutputStream();
IOUtils.copy(inputstream, out);
byte[] textBytes = out.toByteArray();
ByteArrayInputStream stream = new ByteArrayInputStream(textBytes);
ParseContext pcontext = new ParseContext();
Parser parser = new AutoDetectParser();
parser.parse(stream, handler, metadata, pcontext);
LanguageDetector lDetector = new OptimaizeLangDetector().loadModels();
LanguageResult detect = lDetector.detect(handler.toString());
System.out.println("Language: " +detect); // Got languge 'de' but document languge is 'gu'
System.out.println(handler.toString()); // If font is Shruti content print correctly but font is LMG-RUPE than it gives wrong output