Очистка PDF с помощью PyPDF2, и данные не будут считываться последовательно! Это ограничение этой библиотеки?
При чтении PDF-файла с использованием PYPDF2 вот синтаксис:
with open("Sample_data.pdf", 'rb') as PDFfile:
reader = p2.PdfFileReader(PDFfile)
print(reader.getDocumentInfo())
page1 = reader.getPage(0)
print(page1.getContents())
text = page1.extractText()
print(text)
Скажем, этот PDF-файл содержит табличные данные, но не имеет надлежащей табличной структуры. И очищенные данные или текст в этом случае приводят к тому, что ... последовательность имен столбцов отличается от последовательности данных строки.
Кроме того, в столбцах не сохраняется пространство, что приводит к более сложной обработке текста после извлечения. Я попытался просмотреть документацию PYPDF2, но не нашел ничего, что могло бы решить эту проблему.