Как я могу конвертировать PDF в HTML?
Какие есть хорошие библиотеки на любом языке для конвертации PDF в HTML?
8 ответов
PDFBox в apache имеет возможность извлечения html. http://pdfbox.apache.org/
Если вы работаете над Windows-боксом, я думаю, у Амюни есть библиотека для этого. Их PDF Document Convertor доступен в виде DLL, может широко использоваться среди языков, поддерживаемых Visual Studio, и может конвертировать в RTF, TML, EXCEL, JPEG и TIFF.
Вы можете использовать модуль в Python под названием PDFMiner.
Установить его можно так:
pip install pdfminer
Используйте этот модуль, как показано ниже:
pdf2txt.py -o output.html -t html file.pdf
Ссылка на модуль: https://pypi.org/project/pdfminer/
Программа pdftohtml преобразует pdf в html и xml и сохраняет информацию о положении текста, что полезно для очистки таблиц.
Кажется, он основан на библиотеке xpdf и также имеет двоичный файл windows.
В Linux установите pdftohtml - для пакетного преобразования всех файлов в папке используйте:
ls *.pdf | xargs -I{} pdftohtml {}
Это создаст HTML-сайт со всеми ссылками и изображениями из оригинальных документов. Каждая страница в отдельном HTML-файле. Очень полезно конвертировать проектную документацию для поиска файлов по фразе, используя общий системный поиск файлов.
В Perl вы можете использовать плагин SWISH:: Filter SWISH:: Filters:: Pdf2HTML. (Требуется пакет xpdf.)
Для обратного (HTML в PDF), см. Этот вопрос.
http://www.lowagie.com/iText/ Библиотека с открытым исходным кодом для Java и C#
Если вы ищете способ конвертировать PDF в HTML один или два раза, тогда я рекомендую Adobe Online Conversion
Если вам нужен API, тогда http://www.pdfonline.com/ имеет SDK, который должен соответствовать вашим потребностям.
Если вам нужна библиотека, пожалуйста, сообщите нам, какой серверный язык вы предпочитаете.
Учитывая неопределенность исходного вопроса, я собираюсь продолжить и дать решение, которое будет работать с любым языком, который может выполнять приложения командной строки. Хотя установка может быть немного сложной, OpenOffice может быть запущен в автономном режиме на сервере и с помощью jodconverter может конвертировать любой формат файла в любой другой формат файла (ну, любые преобразования формата, которые может обрабатывать openoffice)., то есть).
Вот несколько ссылок, которые помогут с настройкой: