Конвертировать PDF, DOC, PPT в HTML5
Я погуглил (без удачи) для open source software that can convert doc, ppt, and pdf to HTML5.
(Именно то, что делает Scribd) Существуют ли эквиваленты с открытым исходным кодом для типа преобразования, которое делает Scribd?
Если кто-нибудь знает о платных услугах, это тоже сработает. У Scribd есть API, но он предназначен для использования с Flash Viewer. Кроме того, я хотел бы разместить свой собственный контент, так как мне нужен дополнительный контроль над преобразованным HTML-документом.
6 ответов
Вы вряд ли найдете единственное предложение, которое сделает все это, особенно в мире открытого кода. Скорее всего, вы в конечном итоге будете полагаться на кучу вещей, и вам даже может понадобиться объединить некоторые конвертеры, чтобы перейти к HTML. (Например, PDF -> PS -> HTML)
OpenOffice поддерживает преобразование в HTML и может вызываться из командной строки.
http://pdftohtml.sourceforge.net/ выглядит неплохо при преобразовании pdf в html.
Для документа в формате Word ML или OpenXML вполне возможно, что вы можете использовать XSLT-преобразования, поскольку оба формата ввода и вывода - это XML. Я видел несколько таблиц стилей, плавающих по сети, которые делают это, но YMMV.
Кстати, почему существует конкретное требование для открытого исходного кода? Например, MS Powerpoint уже поддерживает сохранение как HTML.
Open Office преобразует pdf в html, но качество дизайна вас сильно удивит.
Я предлагаю либо: Crocodoc как платный сервис (он предоставляет различные варианты для разных платформ, таких как Python,Ruby,Java,PHP, разработчикам разрешено работать над своими API-интерфейсами.), Либо ждать официального инструмента Adobe (он в разработке).
Для преобразования PDF в HTML pdf2htmlEX кажется довольно хорошим инструментом (если посмотреть на все примеры / примеры):
Для pdf есть проект с открытым исходным кодом, запущенный mozilla, и он очень хорош: https://github.com/mozilla/pdf.js/
Вы можете увидеть пример Hello World: https://github.com/mozilla/pdf.js/tree/master/examples/helloworld
Что касается остальных типов документов, я думаю, что LibreOffice сказал, что планирует что-то построить в html5, но пока ничего не сделано.
http://wvware.sourceforge.net/
wvHtml: конвертируйте ваш документ Word в HTML4.0.
Возможно: http://www.abisource.com/ но в этом случае это выглядит как "open doc" > "export html" вручную, возможно, плагины помогают. Не уверен, что вы имеете в виду: "исходное программное обеспечение, которое может конвертировать".
Или это: http://www.zope.org/Members/sf/NuxDocument
Кроме того, pdftohtml предоставит вам вывод html-страницы. Но вам придется работать над его графическим интерфейсом. Так как он не кажется слишком интерактивным.
Я знаю, что вопрос устарел, но я нашел новый инструмент с открытым исходным кодом, который называется flaxpaper http://flexpaper.devaldi.com/