Как удалить ненужный текст при извлечении из PDF

Я использую Apache PDFBox для извлечения текста из научной статьи. Я могу извлечь текст из файла PDF.

Ниже приведен код для извлечения простого текста из PDF. Например, данные для извлечения: https://www.aclweb.org/anthology/P/P16/P16-2015.pdf.

Я просто хочу получить заголовок и основной текст, а не ссылки и имя автора на первой странице - Yanhui Gu 1 Zhenglu Yang 2∗ .... - > {xingtian.shi }@sap.com,

    PDFTextStripper pdfStripper = null;
    PDDocument pdDoc = null;
    COSDocument cosDoc = null;
    int count = 1;
    String directory = "Result";
    File folder = new File("data");
    File[] listOfFiles = folder.listFiles();
    for (File file : listOfFiles) {
        if (file.isFile()) {
            try {
              String t;
              String text = getText(file);
              t=text.replaceAll("\n|\r|\t", "");
              printFile(directory+"\\data"+count+".txt",t);
              count++;
             } catch (IOException e) {}
        }
    }

0 ответов

Другие вопросы по тегам