Извлечь все таблицы из PDF в Python

Question

Извлечь все таблицы из PDF в Python

У меня есть PDF и я хочу извлечь все таблицы из этого PDF. Когда я запускаю код ниже, я получаю пустой список.

filepath = 'File_Set_-2_feasibility_Study/140u-td005_-en-p.pdf'
fh = open(filepath, 'rb')
table = pdftables.get_tables(fh)
print(table)

3

python pdf pdftables

Источник

user8278545 07 сен '18 в 09:06

2 ответа

Другие вопросы по тегам python pdf pdftables

user1864294 07 сен '18 в 09:14 2018-09-07 09:14 · Answer 1 · 2018-09-07 09:14

Я предполагаю, что PDF имеет более одной страницы? Это должно работать:

from pdftables.pdf_document import PDFDocument
from pdftables.pdftables import page_to_tables

filepath = ...
page_number = ...
with open(filepath, 'rb') as file_object:
    pdf_doc = PDFDocument.from_fileobj(file_object)
    pdf_page = pdf_doc.get_page(pagenumber) 
    tables = page_to_tables(pdf_page)
    print(tables)

Вы также можете перебрать несколько страниц:

for page_number, page in enumerate(pdf_doc.get_pages()):
    tables = page_to_tables(page)
    print(tables)

user11655734 18 май '21 в 12:31 2021-05-18 12:31 · Answer 2 · 2021-05-18 12:31

# установите ниже библиотеку, чтобы использовать таблицу pdf, она сработала для меня

      > pip install pdftables.six

0

Источник

user11655734 18 май '21 в 12:31