Описание тега pdfminer

Описание тега Вопросы с тегом

Инструмент на основе Python для извлечения информации из документов PDF.

PDFMiner - это инструмент для извлечения информации из документов PDF. В отличие от других инструментов, связанных с PDF, он полностью ориентирован на получение и анализ текстовых данных. PDFMiner позволяет получить точное расположение текста на странице, а также другую информацию, такую как шрифты или линии. Он включает конвертер PDF, который может преобразовывать файлы PDF в другие текстовые форматы (например, HTML). Он имеет расширяемый анализатор PDF, который можно использовать для других целей, кроме анализа текста.

особенности

Написано полностью на Python. (для версии 2.4 или новее)
Разбирайте, анализируйте и конвертируйте документы PDF.
Поддержка спецификации PDF-1.7. (Ну, почти)
Поддержка языков CJK и вертикального письма.
Поддержка различных типов шрифтов (Type1, TrueType, Type3 и CID).
Поддержка базового шифрования (RC4).
Преобразование PDF в HTML (с помощью примера веб-приложения-конвертера).
Outline (TOC) извлечение.
Извлечение помеченного содержимого.
Восстановите исходный макет, сгруппировав фрагменты текста.

PDFMiner примерно в 20 раз медленнее, чем другие аналоги на основе C/C++, такие как XPdf.

( источник)