Извлечение табличных данных PDF с помощью pdftabextract

Я пытаюсь извлечь табличные данные из текстовых PDF-файлов. PDF-файлы бывают разных форматов, и мне нужно найти общее решение. Для этой задачи я наткнулся на одну библиотеку под названием «pdftabextract». Но он работает с отсканированными документами и был разработан для тех же целей.

Я хочу использовать его для своих текстовых PDF-файлов, но не знаю, как это сделать.

Ссылка на статью: https://datascience.blog.wzb.eu/2017/02/16/data-mining-ocr-pdfs-using-pdftabextract-to-liberate-tabular-data-from-scanned-documents/

В статье выше показан пошаговый подход. Но я не знаю, как использовать это для текстовых PDF-файлов. Пожалуйста помоги.

0 ответов

Другие вопросы по тегам