Как я могу конвертировать PDF в HTML?

Какие есть хорошие библиотеки на любом языке для конвертации PDF в HTML?

8 ответов

PDFBox в apache имеет возможность извлечения html. http://pdfbox.apache.org/

Если вы работаете над Windows-боксом, я думаю, у Амюни есть библиотека для этого. Их PDF Document Convertor доступен в виде DLL, может широко использоваться среди языков, поддерживаемых Visual Studio, и может конвертировать в RTF, TML, EXCEL, JPEG и TIFF.

Вы можете использовать модуль в Python под названием PDFMiner.

Установить его можно так:

pip install pdfminer

Используйте этот модуль, как показано ниже:

pdf2txt.py -o output.html -t html file.pdf

Ссылка на модуль: https://pypi.org/project/pdfminer/

Программа pdftohtml преобразует pdf в html и xml и сохраняет информацию о положении текста, что полезно для очистки таблиц.

Кажется, он основан на библиотеке xpdf и также имеет двоичный файл windows.

В Linux установите pdftohtml - для пакетного преобразования всех файлов в папке используйте:

ls *.pdf | xargs -I{} pdftohtml {}

Это создаст HTML-сайт со всеми ссылками и изображениями из оригинальных документов. Каждая страница в отдельном HTML-файле. Очень полезно конвертировать проектную документацию для поиска файлов по фразе, используя общий системный поиск файлов.

В Perl вы можете использовать плагин SWISH:: Filter SWISH:: Filters:: Pdf2HTML. (Требуется пакет xpdf.)

Для обратного (HTML в PDF), см. Этот вопрос.

http://www.lowagie.com/iText/ Библиотека с открытым исходным кодом для Java и C#

Если вы ищете способ конвертировать PDF в HTML один или два раза, тогда я рекомендую Adobe Online Conversion

Если вам нужен API, тогда http://www.pdfonline.com/ имеет SDK, который должен соответствовать вашим потребностям.

Если вам нужна библиотека, пожалуйста, сообщите нам, какой серверный язык вы предпочитаете.

Учитывая неопределенность исходного вопроса, я собираюсь продолжить и дать решение, которое будет работать с любым языком, который может выполнять приложения командной строки. Хотя установка может быть немного сложной, OpenOffice может быть запущен в автономном режиме на сервере и с помощью jodconverter может конвертировать любой формат файла в любой другой формат файла (ну, любые преобразования формата, которые может обрабатывать openoffice)., то есть).

Вот несколько ссылок, которые помогут с настройкой:

Другие вопросы по тегам