Извлечение текста на иврите из PDF с использованием apache pdfbox не возвращает все символы
Приведенный ниже код извлекает текст на иврите из http://www.language-brain.com/journal/docs/Gvion_Friedmann_LanguageBrain7_frigvi.pdf без ивритского символа "ן". Весь другой текст, похоже, извлечен нормально. Есть идеи?
public class TestPDFUtil {
@Test
public void testHebrewPDF() throws Exception {
String url = "http://www.language-brain.com/journal/docs/Gvion_Friedmann_LanguageBrain7_frigvi.pdf";
String text = PDFUtil.readPDF(url);
System.out.println(text);
Assert.assertTrue(text.indexOf("זיכרון עבודה") != -1);
}
}
public class PDFUtil {
public static String readPDF(String url) throws IOException {
URL urlObj = new URL(url);
PDDocument document = PDDocument.load(urlObj.openStream());
document.getClass();
if( !document.isEncrypted() ){
PDFTextStripper stripper = new PDFTextStripper();
String text = stripper.getText(document);
document.close();
return text.trim();
}
return null;
}
}
Прикрепление снимков экрана, которые показывают отсутствующий символ. Слева показано, как страница http://www.language-brain.com/journal/docs/Gvion_Friedmann_LanguageBrain7_frigvi.pdf отображается в Crome. Справа - результат извлечения текста в формате PDF с использованием приведенного выше кода.