Найти PDF размеры с Камелот
Я использую Камелот, чтобы прочитать полные PDF-файлы и извлечь около 112 атрибутов из каждого.
Я использую области таблицы для извлечения атрибутов
test_variable = camelot.read_pdf(filename, flavor='stream',
table_areas=['38, 340 ,50, 328'])
Проблема в том, что область таблицы не является постоянной для одного и того же атрибута во всех документах. Иногда я мог бы найти тот же атрибут на несколько пикселей вниз в координатах x или y в другом документе.
test_variable = camelot.read_pdf(filename, flavor='stream',
table_areas=['38,350,50,338'])
Есть ли способ получить точный атрибут из той же области независимо от извлечения какого-либо документа?
1 ответ
Возможно, вам поможет опция table_regions (введенная в версии 0.7).
https://camelot-py.readthedocs.io/en/master/user/advanced.html
"Когда указано table_regions, Camelot будет анализировать только указанные регионы для поиска таблиц".
Вы можете определить большую область table_regions, и Camelot будет искать таблицы в этой области.