PDFMiner неправильно складывает данные списка?

Question

PDFMiner неправильно складывает данные списка?

Я пытаюсь извлечь информацию из PDF-файла с помощью PDFMiner согласованным образом, чтобы я мог провести дальнейший анализ, но не могу понять, как правильно извлечь табличные данные. PDF Miner, кажется, извлекает столбцы перед строками. Кто-нибудь решил эту проблему или знает способ извлечения строк в первую очередь? Я попытался извлечь его в HTML, но я столкнулся с той же проблемой. Любая помощь с благодарностью.

Изображение из фактического PDF:

Изображение из извлеченной версии

Код, который я использовал для извлечения ниже:

import nltk
import numpy
import pip
import pdfminer
import dateutil
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from cStringIO import StringIO

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = file(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()
    fstr = ''
    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages,    password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)

        str = retstr.getvalue()
        fstr += str

    fp.close()
    device.close()
    retstr.close()
    return fstr

test1 =  convert_pdf_to_txt("C:\Users\User\Documents\Contract\Dental\Certificate - Dental - Assurant - 2010.pdf")

1

python pdf tabular pdfminer pdf-extraction

Источник

user4271859 17 окт '15 в 17:56

0 ответов

Другие вопросы по тегам python pdf tabular pdfminer pdf-extraction