Извлечение таблиц из PDF

Question

Извлечение таблиц из PDF

Я пытаюсь извлечь таблицы из PDF и записать их в Excel, используя python tabula-py. Вот код

tabula.convert_into("input.pdf", "output.xlsx", output_format="xlsx", multiple_tables=True, stream=True, spreadsheets=True, pages='all')

Все в порядке, я получаю output.xlsx, но проблема в том, что размеры / стили шрифта не сохраняются, как в PDF. Есть ли способ сохранить размеры / стили шрифтов?

0

python excel pdf tabula-py

Источник

user4181465 11 авг '19 в 19:57

1 ответ

Другие вопросы по тегам python excel pdf tabula-py

user3762316 19 авг '19 в 12:21 2019-08-19 12:21 · Answer 1 · 2019-08-19 12:21

Нет. По умолчанию tabula-py заставляет конвертировать PDF в CSV, а не в xlsx. tabula-java, который вызывается tabula-py, также не имеет возможности конвертировать в XLSX.

1

Источник

user3762316 19 авг '19 в 12:21