Описание тега pdfminer

Инструмент на основе Python для извлечения информации из документов PDF.

PDFMiner - это инструмент для извлечения информации из документов PDF. В отличие от других инструментов, связанных с PDF, он полностью ориентирован на получение и анализ текстовых данных. PDFMiner позволяет получить точное расположение текста на странице, а также другую информацию, такую ​​как шрифты или линии. Он включает конвертер PDF, который может преобразовывать файлы PDF в другие текстовые форматы (например, HTML). Он имеет расширяемый анализатор PDF, который можно использовать для других целей, кроме анализа текста.

особенности

  • Написано полностью на Python. (для версии 2.4 или новее)
  • Разбирайте, анализируйте и конвертируйте документы PDF.
  • Поддержка спецификации PDF-1.7. (Ну, почти)
  • Поддержка языков CJK и вертикального письма.
  • Поддержка различных типов шрифтов (Type1, TrueType, Type3 и CID).
  • Поддержка базового шифрования (RC4).
  • Преобразование PDF в HTML (с помощью примера веб-приложения-конвертера).
  • Outline (TOC) извлечение.
  • Извлечение помеченного содержимого.
  • Восстановите исходный макет, сгруппировав фрагменты текста.

PDFMiner примерно в 20 раз медленнее, чем другие аналоги на основе C/C++, такие как XPdf.

( источник)