как преобразовать файл PDF в файл Excel с помощью Python

Question

как преобразовать файл PDF в файл Excel с помощью Python

Я хочу преобразовать файл PDF в Excel и сохранить его локально через python. Я преобразовал PDF в формат Excel, но как мне сохранить его локально?

мой код:

df = ("./Downloads/folder/myfile.pdf")
tabula.convert_into(df, "test.csv", output_format="csv", stream=True)

3

python csv export-to-csv tabula convertto-json

Источник

user6258021 04 ноя '19 в 12:28

7 ответов

Решение

В моем случае сработал сценарий ниже:

import tabula

df = tabula.read_pdf(r'C:\Users\user\Downloads\folder\3.pdf', pages='all')
tabula.convert_into(r'C:\Users\user\Downloads\folder\3.pdf', r'C:\Users\user\Downloads\folder\test.csv' , output_format="csv",pages='all', stream=True)

2

Источник

user8473989 08 авг '20 в 15:48

я использую гугл коллаб

установить необходимый пакет

      !pip install tabula-py
!pip install pandas

Импортировать необходимый модуль

      import tabula
import pandas as pd

Чтение PDF-файла

      data = tabula.read_pdf("example.pdf", pages='1')[0] # "all" untuk semua data, pages diisi nomor halaman

конвертировать PDF в CSV

      tabula.convert_into("example.pdf", "example.csv", output_format="csv", pages='1') #"all" untuk semua data, pages diisi no halaman
print(data)

# преобразовать в файл Excel data1 = pd.read_csv("example.csv") data1.dtypes

#теперь сохранить в xlsxdata.to_excel('dataremove.xlsx')

1

Источник

Khoirul Anam 23 фев '23 в 02:02

PDF в файл .xlsx:

      for item in df:
   list1.append(item)
df = pd.DataFrame(list1)
df.to_excel('outputfile.xlsx', sheet_name='Sheet1', index=True)

1

Источник

user8297684 08 апр '21 в 13:03

В документации сказано, что:

Выходной файл будет сохранен в output_path

output_path - это ваш второй параметр, test.csv. Я думаю, он работает нормально, но вы блокируете его не в той папке. Он будет расположен рядом с вашим скриптом (строго говоря - в текущем рабочем каталоге), поскольку вы не указали полный путь.

0

Источник

user3788340 04 ноя '19 в 12:43

вы также можете использоватьcamelotв комбинации сpandas

      import camelot
import pandas
tables = camelot.read_pdf(path_to_pdf, flavor='stream',pages='all')
df = pandas.concat([table.df for table in tables])
df.to_csv(path_to_csv)

0

Источник

user6565435 07 дек '22 в 11:31

Код, который сработал для меня, был приведен ниже, но он читает не все страницы pdf, а только несколько в середине. Что я делаю не так?

      import tabula

df = tabula.read_pdf(r'C:\Users\user\Downloads\folder\3.pdf', pages='all')
tabula.convert_into(r'C:\Users\user\Downloads\folder\3.pdf', r'C:\Users\user\Downloads\folder\test.csv' , output_format="csv",pages='all', stream=True)

-1

Источник

29 янв '21 в 04:23

Другие вопросы по тегам python csv export-to-csv tabula convertto-json

user7690799 04 ноя '19 в 12:41 2019-11-04 12:41 · Accepted Answer · 2019-11-04 12:41

Вы можете указать весь выходной путь, а не только output.csv

df = ("./Downloads/folder/myfile.pdf")
output = "./Downloads/folder/test.csv"
tabula.convert_into(df, output, output_format="csv", stream=True)

Надеюсь, что это ответ на ваш вопрос!!!

10

Источник

user7690799 04 ноя '19 в 12:41