Извлечение таблиц из PDF

Я пытаюсь извлечь таблицы из PDF и записать их в Excel, используя python tabula-py. Вот код

tabula.convert_into("input.pdf", "output.xlsx", output_format="xlsx", multiple_tables=True, stream=True, spreadsheets=True, pages='all')

Все в порядке, я получаю output.xlsx, но проблема в том, что размеры / стили шрифта не сохраняются, как в PDF. Есть ли способ сохранить размеры / стили шрифтов?

1 ответ

Нет. По умолчанию tabula-py заставляет конвертировать PDF в CSV, а не в xlsx. tabula-java, который вызывается tabula-py, также не имеет возможности конвертировать в XLSX.

Другие вопросы по тегам