Разделить PDF на несколько файлов HTML с pdf2htmlEX

Я пытаюсь разбить файл PDF на отдельные файлы HTML. Я имею в виду, что для каждой страницы PDF я хочу файл HTML. Вот как я это делаю:

pdf2htmlEX --split-pages 1 LMS.pdf --page-filename lms%03.html

В результате я получил пустой LMS.html и другие файлы: lms%031.html, lms%032.html, Проблема в том, что эти HTML-файлы не отформатированы правильно, без стиля CSS?

1 ответ

Забавная вещь об этом... Я наткнулся на ваш вопрос, пытаясь решить ту же проблему. Я использовал ту же команду, что и у вас, но без установки --page-filename параметр. Используя ваш пример, мой pdf2htmlEX вызов будет аналогичен:

pdf2htmlEX --split-pages 1 LMS.pdf 

Затем я открыл основной файл HTML в Chrome, чтобы найти кучу пустых страниц. После небольшого поиска я открыл этот же файл в Firefox. Это сработало. Очень странно. Об ошибках не сообщается в выводе консоли. Конечно, я даже не думал заглядывать в вывод консоли Chrome. Когда я это сделал, я нашел:

Uncaught NetworkError: Failed to execute 'send' on 'XMLHttpRequest': Failed to load 'file:///...'.

Слава Богу за Stackru. Я не знаю, почему это работает в Firefox, но если вы получаете ошибки, о которых сообщает Chrome, вам нужно запустить веб-сервер.

Самый простой и быстрый способ сделать это - перейти в каталог, в который я конвертировал PDF, и запустить:

python -m SimpleHTTPServer

По умолчанию ваша страница будет отображаться на http://localhost:8000, Задача решена. Используйте любой сервер, который вам больше подходит.

Другие вопросы по тегам