Тика не может правильно читать текст из файла PDF

Question

Тика не может правильно читать текст из файла PDF

Я новичок в Apache Тика.

У меня есть два файла PDF с другим шрифтом, но tika не может правильно читать, у одного шрифт Shruti, который правильно читается с помощью tika, но у другого файла шрифт lmg-rupen, который не читается правильно с tika, есть ли какой-то конкретный шрифт, читаемый tika?

ниже приведен мой фрагмент кода:

BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata(); 
FileInputStream inputstream = new FileInputStream(file);

ByteArrayOutputStream out = new ByteArrayOutputStream(); 
IOUtils.copy(inputstream, out); 
byte[] textBytes = out.toByteArray(); 
ByteArrayInputStream stream = new ByteArrayInputStream(textBytes);
ParseContext pcontext = new ParseContext();
Parser parser = new AutoDetectParser();
parser.parse(stream, handler, metadata, pcontext);

LanguageDetector lDetector = new OptimaizeLangDetector().loadModels();
LanguageResult detect = lDetector.detect(handler.toString());
System.out.println("Language: " +detect); // Got languge 'de' but document languge is 'gu'

System.out.println(handler.toString()); // If font is Shruti content print correctly but font is LMG-RUPE than it gives wrong output

0

java pdf lucene pdfbox apache-tika

Источник

user5235111 30 июл '16 в 16:56

0 ответов

Другие вопросы по тегам java pdf lucene pdfbox apache-tika