Извлечь все таблицы из PDF в Python
У меня есть PDF и я хочу извлечь все таблицы из этого PDF. Когда я запускаю код ниже, я получаю пустой список.
filepath = 'File_Set_-2_feasibility_Study/140u-td005_-en-p.pdf'
fh = open(filepath, 'rb')
table = pdftables.get_tables(fh)
print(table)
2 ответа
Я предполагаю, что PDF имеет более одной страницы? Это должно работать:
from pdftables.pdf_document import PDFDocument
from pdftables.pdftables import page_to_tables
filepath = ...
page_number = ...
with open(filepath, 'rb') as file_object:
pdf_doc = PDFDocument.from_fileobj(file_object)
pdf_page = pdf_doc.get_page(pagenumber)
tables = page_to_tables(pdf_page)
print(tables)
Вы также можете перебрать несколько страниц:
for page_number, page in enumerate(pdf_doc.get_pages()):
tables = page_to_tables(page)
print(tables)
# установите ниже библиотеку, чтобы использовать таблицу pdf, она сработала для меня
> pip install pdftables.six