Разделить PDF на несколько файлов HTML с pdf2htmlEX

Question

Разделить PDF на несколько файлов HTML с pdf2htmlEX

Я пытаюсь разбить файл PDF на отдельные файлы HTML. Я имею в виду, что для каждой страницы PDF я хочу файл HTML. Вот как я это делаю:

pdf2htmlEX --split-pages 1 LMS.pdf --page-filename lms%03.html

В результате я получил пустой LMS.html и другие файлы: lms%031.html, lms%032.html, Проблема в том, что эти HTML-файлы не отформатированы правильно, без стиля CSS?

1

html pdf pdf2htmlex

Источник

user3741169 14 окт '14 в 12:25

1 ответ

Другие вопросы по тегам html pdf pdf2htmlex

user1356582 08 янв '15 в 19:23 2015-01-08 19:23 · Answer 1 · 2015-01-08 19:23

Забавная вещь об этом... Я наткнулся на ваш вопрос, пытаясь решить ту же проблему. Я использовал ту же команду, что и у вас, но без установки --page-filename параметр. Используя ваш пример, мой pdf2htmlEX вызов будет аналогичен:

pdf2htmlEX --split-pages 1 LMS.pdf

Затем я открыл основной файл HTML в Chrome, чтобы найти кучу пустых страниц. После небольшого поиска я открыл этот же файл в Firefox. Это сработало. Очень странно. Об ошибках не сообщается в выводе консоли. Конечно, я даже не думал заглядывать в вывод консоли Chrome. Когда я это сделал, я нашел:

Uncaught NetworkError: Failed to execute 'send' on 'XMLHttpRequest': Failed to load 'file:///...'.

Слава Богу за Stackru. Я не знаю, почему это работает в Firefox, но если вы получаете ошибки, о которых сообщает Chrome, вам нужно запустить веб-сервер.

Самый простой и быстрый способ сделать это - перейти в каталог, в который я конвертировал PDF, и запустить:

python -m SimpleHTTPServer

По умолчанию ваша страница будет отображаться на http://localhost:8000, Задача решена. Используйте любой сервер, который вам больше подходит.