Как прочитать данные из PDF-файла банковской выписки в Python?

Мне нужно прочитать данные из PDF-файла банковской выписки, который содержит текст и таблицу.

Я пробовал некоторые решения, предоставляемые через переполнение стека, но для большинства из них возникали ошибки.

Из многих следующий код работал у меня, но не получил ожидаемых результатов.

from tika import parser

rawText = parser.from_file('icici.pdf')

rawList = rawText['content'].splitlines()

print(rawList)

получение вывода как -

2020-06-29 13:05:31,177 [MainThread  ] [WARNI]  Failed to see startup log message; retrying...
['', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', 'Statement_MAY2020_013625568.pdf', '', '', '346001506028??PAVA0101 444501', '', '', '', '']

Но нужны данные из файла PDF, а не из файла PDF.

Может ли кто-нибудь предоставить мне решение для чтения данных из банковской выписки в формате PDF?

1 ответ

      df_list = read_pdf(filepath,stream=True,guess=True,pages='all',
                            multiple_tables=True,
                            pandas_options={
                                'header':None})

попробуйте это. Этот код работал у меня с использованием модуля tabula-py.

Другие вопросы по тегам