Конвертировать PDF в HTML
Какое лучшее решение для преобразования документов PDF для просмотра в браузере в HTML? На сайте есть несколько документов в формате PDF, и посетитель может щелкнуть мышью на представлении в виде HTML, и это следует просмотреть на экране в виде файла HTML.
Стандартный сайт работает под управлением PHP, Linux, Apache.
4 ответа
pdftohtml работает отлично: быстро, стабильно, но результат html в лучшем случае безобразен. Я использовал его в течение довольно долгого времени для веб-сайта, который имеет много резюме.
Однако это хорошее решение для извлечения текстового контента.
Я бы попробовал scribd API
или API документа приложений Google. GOogle отлично справляется с отображением и преобразованием PDF-файлов.
Рассматривали ли вы хранение данных PDF в базе данных, а затем либо динамическое создание PDF или HTML-страницы в зависимости от того, что выбирают посетители?
Если у вас есть доступ к командной строке у вашего хостинг-провайдера, в пакете poppler_utils есть утилита pdftohtml.
http://poppler.freedesktop.org/
Выглядит довольно просто в использовании, не вызывал его изнутри PHP, но он должен работать.
Если вы готовы вызывать Java из PHP, вы можете взглянуть на http://www.jpedal.org/html_index.php