Извлечение текста на иврите из PDF с использованием apache pdfbox не возвращает все символы

Приведенный ниже код извлекает текст на иврите из http://www.language-brain.com/journal/docs/Gvion_Friedmann_LanguageBrain7_frigvi.pdf без ивритского символа "ן". Весь другой текст, похоже, извлечен нормально. Есть идеи?

public class TestPDFUtil {
    @Test
    public void testHebrewPDF() throws Exception {
        String url = "http://www.language-brain.com/journal/docs/Gvion_Friedmann_LanguageBrain7_frigvi.pdf";
        String text = PDFUtil.readPDF(url);
        System.out.println(text);
        Assert.assertTrue(text.indexOf("זיכרון עבודה") != -1);
    }
}

public class PDFUtil {
    public static String readPDF(String url) throws IOException {
        URL urlObj = new URL(url);
        PDDocument document = PDDocument.load(urlObj.openStream());
        document.getClass();
        if( !document.isEncrypted() ){
            PDFTextStripper stripper = new PDFTextStripper();
            String text = stripper.getText(document);
            document.close();
            return text.trim();
        }
        return null;
    }
}

Прикрепление снимков экрана, которые показывают отсутствующий символ. Слева показано, как страница http://www.language-brain.com/journal/docs/Gvion_Friedmann_LanguageBrain7_frigvi.pdf отображается в Crome. Справа - результат извлечения текста в формате PDF с использованием приведенного выше кода. введите описание изображения здесь

0 ответов

Другие вопросы по тегам