PDFMiner неправильно складывает данные списка?
Я пытаюсь извлечь информацию из PDF-файла с помощью PDFMiner согласованным образом, чтобы я мог провести дальнейший анализ, но не могу понять, как правильно извлечь табличные данные. PDF Miner, кажется, извлекает столбцы перед строками. Кто-нибудь решил эту проблему или знает способ извлечения строк в первую очередь? Я попытался извлечь его в HTML, но я столкнулся с той же проблемой. Любая помощь с благодарностью.
Изображение из фактического PDF:
Изображение из извлеченной версии
Код, который я использовал для извлечения ниже:
import nltk
import numpy
import pip
import pdfminer
import dateutil
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from cStringIO import StringIO
def convert_pdf_to_txt(path):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
fp = file(path, 'rb')
interpreter = PDFPageInterpreter(rsrcmgr, device)
password = ""
maxpages = 0
caching = True
pagenos=set()
fstr = ''
for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
interpreter.process_page(page)
str = retstr.getvalue()
fstr += str
fp.close()
device.close()
retstr.close()
return fstr
test1 = convert_pdf_to_txt("C:\Users\User\Documents\Contract\Dental\Certificate - Dental - Assurant - 2010.pdf")