Как наиболее эффективно извлекать таблицы из определенных страниц из PDF в CSV?

Я хочу извлечь определенные страницы из PDF в таблицы в CSV. Для этой задачи я использую tabula-py, textract(я получаю лучшие результаты из метода PyPDF2), PyPDF2.

Для каждого PDF я разделяю каждую страницу, затем использую textract. Если я найду нужный текст, я экспортирую таблицу в CSV с помощью tabula-py. Проблема в том, что это медленный процесс.

Будет ли использование эластичного стека ускорить процесс? Я имею в виду индексирование PDF, а затем использование Python API для извлечения текста, который я хочу?

1 ответ

Не уверены, как лучше найти текстовый текст из PyPDF2 для текста. Это достойная просьба включить также.

Но как насчет того, чтобы не использовать какой-либо PyPDF2 или textract и подходить по-другому?

  1. Извлеките все таблицы, используя таблицу
  2. Проверьте наличие слова в датафрейме и делайте что хотите
Другие вопросы по тегам