Предупреждения о шрифте Tabula приводят к тому, что таблица не анализируется из документа. Это как это должно работать?
Я проанализировал 3 документа, чтобы получить таблицы. Результаты, как следует:
- Документ 1: Идеальный анализ.
- Документ 2: получено 16 июля 2019 г. 17:25:42 org.apache.pdfbox.pdmodel.font.PDType1Font ПРЕДУПРЕЖДЕНИЕ. Использование резервного шрифта NimbusSanL-Bold для Univers-Bold Не уверен, что это связано, но вторая страница была проанализирована и первого не было.
- Документ 3: Получено 17 июля 2019 г. 10:21:25 org.apache.pdfbox.pdmodel.font.PDType1Font ПРЕДУПРЕЖДЕНИЕ. Использование резервного шрифта NimbusSanL-Regu для Univers. Ничего не было разобрано с этим.
Вот текущие настройки парсинга таблицы:
rows = tabula.read_pdf(filename,
pages='all',
silent=True,
pandas_options={
'header': None,
'error_bad_lines': False,
'warn_bad_lines': False
})
Существуют ли другие настройки, которые могут решить эту конкретную проблему.
1 ответ
Решение
Предупреждения пришли из PDFBox, который зависит от tabula-java. К сожалению, сама проблема возникает из самого PDF, и нет способа обойти эту проблему с помощью tabula-py.