Как прочитать данные из PDF-файла банковской выписки в Python?
Мне нужно прочитать данные из PDF-файла банковской выписки, который содержит текст и таблицу.
Я пробовал некоторые решения, предоставляемые через переполнение стека, но для большинства из них возникали ошибки.
Из многих следующий код работал у меня, но не получил ожидаемых результатов.
from tika import parser
rawText = parser.from_file('icici.pdf')
rawList = rawText['content'].splitlines()
print(rawList)
получение вывода как -
2020-06-29 13:05:31,177 [MainThread ] [WARNI] Failed to see startup log message; retrying...
['', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', 'Statement_MAY2020_013625568.pdf', '', '', '346001506028??PAVA0101 444501', '', '', '', '']
Но нужны данные из файла PDF, а не из файла PDF.
Может ли кто-нибудь предоставить мне решение для чтения данных из банковской выписки в формате PDF?
1 ответ
df_list = read_pdf(filepath,stream=True,guess=True,pages='all',
multiple_tables=True,
pandas_options={
'header':None})
попробуйте это. Этот код работал у меня с использованием модуля tabula-py.