Зачистка общедоступного веб-сайта PDF для данных в таблице с помощью Python3

Я новичок в Python, и меня попросили выяснить, как очистить общедоступный PDF-файл веб-сайта для информации, чтобы сохранить ее в базе данных NoSQL как можно скорее. Я успешно вытащил данные с одной из страниц с кодом ниже:

import io
import PyPDF2
import requests

url = 'http://www.ct.gov/hix/lib/hix/CT_DSG_-12132014_version_1.2_%28with_clarifications%29.pdf'

r = requests.get(url)
f = io.BytesIO(r.content)

reader = PyPDF2.PdfFileReader(f)
contents = reader.getPage(10).extractText().split('\n')

print(contents)

Я пытаюсь получить данные в более полезном формате. В настоящее время он объединяет / разделяет данные нескольких ячеек. Я исследовал несколько способов извлечения из PDF-файлов (PyPDF2, PDFMiner, Tabula и т. Д.), Поэтому я открыт для любых предложений о том, что лучше всего использовать.

Спасибо!

0 ответов

Другие вопросы по тегам