Очистка PDF с помощью PyPDF2, и данные не будут считываться последовательно! Это ограничение этой библиотеки?

Question

Очистка PDF с помощью PyPDF2, и данные не будут считываться последовательно! Это ограничение этой библиотеки?

При чтении PDF-файла с использованием PYPDF2 вот синтаксис:

      with open("Sample_data.pdf", 'rb') as PDFfile:
reader = p2.PdfFileReader(PDFfile)
print(reader.getDocumentInfo())
page1 = reader.getPage(0)
print(page1.getContents())
text = page1.extractText()
print(text)

Скажем, этот PDF-файл содержит табличные данные, но не имеет надлежащей табличной структуры. И очищенные данные или текст в этом случае приводят к тому, что ... последовательность имен столбцов отличается от последовательности данных строки.

Кроме того, в столбцах не сохраняется пространство, что приводит к более сложной обработке текста после извлечения. Я попытался просмотреть документацию PYPDF2, но не нашел ничего, что могло бы решить эту проблему.

0

pypdf text-extraction pypdf2 pdf-scraping python-pdfreader

Источник

user12580143 06 июл '21 в 10:29

0 ответов

Другие вопросы по тегам pypdf text-extraction pypdf2 pdf-scraping python-pdfreader