Зачистка общедоступного веб-сайта PDF для данных в таблице с помощью Python3
Я новичок в Python, и меня попросили выяснить, как очистить общедоступный PDF-файл веб-сайта для информации, чтобы сохранить ее в базе данных NoSQL как можно скорее. Я успешно вытащил данные с одной из страниц с кодом ниже:
import io
import PyPDF2
import requests
url = 'http://www.ct.gov/hix/lib/hix/CT_DSG_-12132014_version_1.2_%28with_clarifications%29.pdf'
r = requests.get(url)
f = io.BytesIO(r.content)
reader = PyPDF2.PdfFileReader(f)
contents = reader.getPage(10).extractText().split('\n')
print(contents)
Я пытаюсь получить данные в более полезном формате. В настоящее время он объединяет / разделяет данные нескольких ячеек. Я исследовал несколько способов извлечения из PDF-файлов (PyPDF2, PDFMiner, Tabula и т. Д.), Поэтому я открыт для любых предложений о том, что лучше всего использовать.
Спасибо!