Как наиболее эффективно извлекать таблицы из определенных страниц из PDF в CSV?

Question

Как наиболее эффективно извлекать таблицы из определенных страниц из PDF в CSV?

Я хочу извлечь определенные страницы из PDF в таблицы в CSV. Для этой задачи я использую tabula-py, textract(я получаю лучшие результаты из метода PyPDF2), PyPDF2.

Для каждого PDF я разделяю каждую страницу, затем использую textract. Если я найду нужный текст, я экспортирую таблицу в CSV с помощью tabula-py. Проблема в том, что это медленный процесс.

Будет ли использование эластичного стека ускорить процесс? Я имею в виду индексирование PDF, а затем использование Python API для извлечения текста, который я хочу?

0

python elasticsearch tabula-py

Источник

user6046943 17 июн '19 в 14:41

1 ответ

Другие вопросы по тегам python elasticsearch tabula-py

user6041169 27 авг '19 в 04:19 2019-08-27 04:19 · Answer 1 · 2019-08-27 04:19

Не уверены, как лучше найти текстовый текст из PyPDF2 для текста. Это достойная просьба включить также.

Но как насчет того, чтобы не использовать какой-либо PyPDF2 или textract и подходить по-другому?

Извлеките все таблицы, используя таблицу
Проверьте наличие слова в датафрейме и делайте что хотите