Как извлечь данные соответствующего столбца из PDF
PDF-файл содержит данные, разделенные строкой за строкой, и после строки есть таблица, которая содержит заголовок и соответствующее ему значение под ним, я не могу получить его упорядоченным образом, но вместо этого я получаю полный заголовок столбца один за другим как текст. Я могу получить данные, представить строку за строкой, чтобы связать заголовок и его соответствующее значение, я не могу сделать то же самое для таблицы.
fp = open(my_file, "rb")
parser = PDFParser(fp)
document = PDFDocument(parser)
if not document.is_extractable:
raise PDFTextExtractionNotAllowed
rsrcmgr = PDFResourceManager()
laparams = LAParams()
laparams.line_margin = 12
device = PDFPageAggregator(rsrcmgr, laparams=laparams)
interpreter = PDFPageInterpreter(rsrcmgr, device)
for page in PDFPage.create_pages(document):
interpreter.process_page(page)
layout = device.get_result()
for lt_obj in layout:
if isinstance(lt_obj,LTTextBox):
extracted_text += lt_obj.get_text()
print extracted_text
1 ответ
PDF-файлы не размещены в каком-либо определенном порядке (хотя обычно порядок не является полностью случайным).
Вам нужно будет найти заголовки, а затем вывести содержимое строк из позиции X,Y, если текст.