Найти PDF размеры с Камелот

Question

Найти PDF размеры с Камелот

Я использую Камелот, чтобы прочитать полные PDF-файлы и извлечь около 112 атрибутов из каждого.

Я использую области таблицы для извлечения атрибутов

 test_variable = camelot.read_pdf(filename, flavor='stream', 
                 table_areas=['38, 340 ,50, 328'])

Проблема в том, что область таблицы не является постоянной для одного и того же атрибута во всех документах. Иногда я мог бы найти тот же атрибут на несколько пикселей вниз в координатах x или y в другом документе.

 test_variable = camelot.read_pdf(filename, flavor='stream', 
                 table_areas=['38,350,50,338'])

Есть ли способ получить точный атрибут из той же области независимо от извлечения какого-либо документа?

6

python python-camelot pdf-extraction

Источник

user9368056 14 янв '19 в 06:32

1 ответ

Другие вопросы по тегам python python-camelot pdf-extraction

user10883094 14 янв '19 в 11:07 2019-01-14 11:07 · Answer 1 · 2019-01-14 11:07

Возможно, вам поможет опция table_regions (введенная в версии 0.7).

https://camelot-py.readthedocs.io/en/master/user/advanced.html

"Когда указано table_regions, Camelot будет анализировать только указанные регионы для поиска таблиц".

Вы можете определить большую область table_regions, и Camelot будет искать таблицы в этой области.

user9123489 04 дек '19 в 00:04 2019-12-04 00:04 · Answer 2 · 2019-12-04 00:04

Камелот использует систему координат opencv, а размеры можно получить с помощью opencv .shape

См. Исходный код для обработки изображений камелота здесь и документацию opencv здесь

2

Источник

user9123489 04 дек '19 в 00:04