Разделить PDF на несколько файлов HTML с pdf2htmlEX
Я пытаюсь разбить файл PDF на отдельные файлы HTML. Я имею в виду, что для каждой страницы PDF я хочу файл HTML. Вот как я это делаю:
pdf2htmlEX --split-pages 1 LMS.pdf --page-filename lms%03.html
В результате я получил пустой LMS.html
и другие файлы: lms%031.html
, lms%032.html
, Проблема в том, что эти HTML-файлы не отформатированы правильно, без стиля CSS?
1 ответ
Забавная вещь об этом... Я наткнулся на ваш вопрос, пытаясь решить ту же проблему. Я использовал ту же команду, что и у вас, но без установки --page-filename
параметр. Используя ваш пример, мой pdf2htmlEX
вызов будет аналогичен:
pdf2htmlEX --split-pages 1 LMS.pdf
Затем я открыл основной файл HTML в Chrome, чтобы найти кучу пустых страниц. После небольшого поиска я открыл этот же файл в Firefox. Это сработало. Очень странно. Об ошибках не сообщается в выводе консоли. Конечно, я даже не думал заглядывать в вывод консоли Chrome. Когда я это сделал, я нашел:
Uncaught NetworkError: Failed to execute 'send' on 'XMLHttpRequest': Failed to load 'file:///...'.
Слава Богу за Stackru. Я не знаю, почему это работает в Firefox, но если вы получаете ошибки, о которых сообщает Chrome, вам нужно запустить веб-сервер.
Самый простой и быстрый способ сделать это - перейти в каталог, в который я конвертировал PDF, и запустить:
python -m SimpleHTTPServer
По умолчанию ваша страница будет отображаться на http://localhost:8000
, Задача решена. Используйте любой сервер, который вам больше подходит.