Описание тега pdfminer
Инструмент на основе Python для извлечения информации из документов PDF.
PDFMiner - это инструмент для извлечения информации из документов PDF. В отличие от других инструментов, связанных с PDF, он полностью ориентирован на получение и анализ текстовых данных. PDFMiner позволяет получить точное расположение текста на странице, а также другую информацию, такую как шрифты или линии. Он включает конвертер PDF, который может преобразовывать файлы PDF в другие текстовые форматы (например, HTML). Он имеет расширяемый анализатор PDF, который можно использовать для других целей, кроме анализа текста.
особенности
- Написано полностью на Python. (для версии 2.4 или новее)
- Разбирайте, анализируйте и конвертируйте документы PDF.
- Поддержка спецификации PDF-1.7. (Ну, почти)
- Поддержка языков CJK и вертикального письма.
- Поддержка различных типов шрифтов (Type1, TrueType, Type3 и CID).
- Поддержка базового шифрования (RC4).
- Преобразование PDF в HTML (с помощью примера веб-приложения-конвертера).
- Outline (TOC) извлечение.
- Извлечение помеченного содержимого.
- Восстановите исходный макет, сгруппировав фрагменты текста.
PDFMiner примерно в 20 раз медленнее, чем другие аналоги на основе C/C++, такие как XPdf.
( источник)