Извлечение таблиц из PDF
Я пытаюсь извлечь таблицы из PDF и записать их в Excel, используя python tabula-py. Вот код
tabula.convert_into("input.pdf", "output.xlsx", output_format="xlsx", multiple_tables=True, stream=True, spreadsheets=True, pages='all')
Все в порядке, я получаю output.xlsx, но проблема в том, что размеры / стили шрифта не сохраняются, как в PDF. Есть ли способ сохранить размеры / стили шрифтов?
1 ответ
Нет. По умолчанию tabula-py заставляет конвертировать PDF в CSV, а не в xlsx. tabula-java, который вызывается tabula-py, также не имеет возможности конвертировать в XLSX.