Таблица не распознается

import pandas as pd
from tabula import read_pdf
FileName="Filepath"
DF3=read_pdf(FileName,multiple_tables=True,options="--pages 'all'", lattice= True)
print DF3

import pandas as pd
import camelot
FileName="Filepath"
tables = camelot.read_pdf(FileName,pages='1-end')
print tables

Я не могу прочитать таблицы в PDF-файлах как информационный фрейм с использованием таблиц, если таблицы распределены по нескольким страницам, а горизонтальные границы обрезаны, поэтому он не распознается как таблица. Как мне это решить? Могу ли я определить таблицы, используя только вертикальные линии?

Пробовал также новый пакет camelot, но снова не смог прочитать колонку.

Я могу обнаружить только одну таблицу в примере PDF, таблица 2x2 не обнаружена

Пример ссылки в формате PDF: https://onedrive.live.com/?id=690704CAD1449D85%21105&cid=690704CAD1449D85

0 ответов

Пока в Камелоте нет реализации объединения многостраничных таблиц. Я предлагаю извлечь таблицы в виде фрейма данных и вручную объединить их с pd.concat.

Вы также можете попробовать Tabula.

Другие вопросы по тегам