Предупреждения о шрифте Tabula приводят к тому, что таблица не анализируется из документа. Это как это должно работать?

Я проанализировал 3 документа, чтобы получить таблицы. Результаты, как следует:

  1. Документ 1: Идеальный анализ.
  2. Документ 2: получено 16 июля 2019 г. 17:25:42 org.apache.pdfbox.pdmodel.font.PDType1Font ПРЕДУПРЕЖДЕНИЕ. Использование резервного шрифта NimbusSanL-Bold для Univers-Bold Не уверен, что это связано, но вторая страница была проанализирована и первого не было.
  3. Документ 3: Получено 17 июля 2019 г. 10:21:25 org.apache.pdfbox.pdmodel.font.PDType1Font ПРЕДУПРЕЖДЕНИЕ. Использование резервного шрифта NimbusSanL-Regu для Univers. Ничего не было разобрано с этим.

Вот текущие настройки парсинга таблицы:

     rows = tabula.read_pdf(filename,
                       pages='all',
                       silent=True,
                       pandas_options={
                           'header': None,
                           'error_bad_lines': False,
                           'warn_bad_lines': False
                       })

Существуют ли другие настройки, которые могут решить эту конкретную проблему.

1 ответ

Решение

Предупреждения пришли из PDFBox, который зависит от tabula-java. К сожалению, сама проблема возникает из самого PDF, и нет способа обойти эту проблему с помощью tabula-py.

Другие вопросы по тегам