Предупреждения о шрифте Tabula приводят к тому, что таблица не анализируется из документа. Это как это должно работать?

Question

Предупреждения о шрифте Tabula приводят к тому, что таблица не анализируется из документа. Это как это должно работать?

Я проанализировал 3 документа, чтобы получить таблицы. Результаты, как следует:

Документ 1: Идеальный анализ.
Документ 2: получено 16 июля 2019 г. 17:25:42 org.apache.pdfbox.pdmodel.font.PDType1Font ПРЕДУПРЕЖДЕНИЕ. Использование резервного шрифта NimbusSanL-Bold для Univers-Bold Не уверен, что это связано, но вторая страница была проанализирована и первого не было.
Документ 3: Получено 17 июля 2019 г. 10:21:25 org.apache.pdfbox.pdmodel.font.PDType1Font ПРЕДУПРЕЖДЕНИЕ. Использование резервного шрифта NimbusSanL-Regu для Univers. Ничего не было разобрано с этим.

Вот текущие настройки парсинга таблицы:

     rows = tabula.read_pdf(filename,
                       pages='all',
                       silent=True,
                       pandas_options={
                           'header': None,
                           'error_bad_lines': False,
                           'warn_bad_lines': False
                       })

Существуют ли другие настройки, которые могут решить эту конкретную проблему.

0

tabula-py

Источник

user6948151 17 июл '19 в 17:35

1 ответ

Решение

Другие вопросы по тегам tabula-py

user3762316 27 июл '19 в 06:48 2019-07-27 06:48 · Accepted Answer · 2019-07-27 06:48

Предупреждения пришли из PDFBox, который зависит от tabula-java. К сожалению, сама проблема возникает из самого PDF, и нет способа обойти эту проблему с помощью tabula-py.

0

Источник

user3762316 27 июл '19 в 06:48