Преобразование HTML в PDF на лету, используя Python и HTMLDOC

Я создал приложение Django для клиента около года назад. Теперь он перепродал заявление в какое-то сверхсекретное правительственное агентство, имя которого они даже не назвали.

Часть приложения динамически генерирует PDF-файлы, используя библиотеку python xhtml2pdf (pisa). Правительству не нравится эта библиотека, они не скажут мне почему, они сказали, что я должен использовать HTMLDOC для генерации PDF.

По этой библиотеке не так много документации, но, прочитав пример PHP, похоже, что вы можете просто общаться с ней через оболочку, поэтому она должна работать с Python. Тем не менее, мне трудно передать HTML в HTMLDOC. Похоже, HTMLDOC будет принимать только файл, но мне действительно нужно передать html в виде строки, так как он генерируется динамически. (Или запишите html-строку во временный файл, а затем передайте этот временный файл в HTMLDOC).

Я думал, что StringIO будет работать для этого, но я получаю ошибку. Вот что у меня есть:

def render_to_pdf(template_src, context_dict):
    template = get_template(template_src)
    context = Context(context_dict)
    html  = template.render(context)
    result = StringIO.StringIO(html.encode("utf-8"))
    os.putenv("HTMLDOC_NOCGI", "1")

    #this line throws "[Errno 2] No such file or directory"
    htmldoc = subprocess.Popen("htmldoc -t pdf --quiet '%s'" % result, stdout=subprocess.PIPE).communicate()

    pdf = htmldoc[0]
    result.close()
    return HttpResponse(pdf, mimetype='application/pdf')

Любые идеи, советы или помощь будут очень признательны.

Благодарю.

ОБНОВИТЬ

Трассировки стека:

Environment:


Request Method: GET
Request URL: (redacted)

Django Version: 1.3 alpha 1 SVN-14921
Python Version: 2.6.5
Installed Applications:
['django.contrib.auth',
 'django.contrib.contenttypes',
 'django.contrib.sessions',
 'django.contrib.sites',
 'django.contrib.messages',
 'django.contrib.admin',
 'application']
Installed Middleware:
('django.middleware.common.CommonMiddleware',
 'django.contrib.sessions.middleware.SessionMiddleware',
 'django.middleware.csrf.CsrfViewMiddleware',
 'django.contrib.auth.middleware.AuthenticationMiddleware',
 'django.contrib.messages.middleware.MessageMiddleware')


Traceback:
File "/usr/local/lib/python2.6/dist-packages/django/core/handlers/base.py" in get_response

  111. response = callback(request, *callback_args, **callback_kwargs)

File "/usr/local/lib/python2.6/dist-packages/django/contrib/auth/decorators.py" in _wrapped_view

  23. return view_func(request, *args, **kwargs)

File "/home/ascgov/application/views/pdf.py" in application_pdf

  90. 'user':owner})

File "/home/ascgov/application/views/pdf.py" in render_to_pdf

  53. htmldoc = subprocess.Popen("/usr/bin/htmldoc -t pdf --quiet '%s'" % result, stdout=subprocess.PIPE).communicate()

File "/usr/lib/python2.6/subprocess.py" in __init__

  633. errread, errwrite)

File "/usr/lib/python2.6/subprocess.py" in _execute_child

  1139. raise child_exception

Exception Type: OSError at /pdf/application/feed-filtr/
Exception Value: [Errno 2] No such file or directory

2 ответа

Решение

Первый, subprocess.PopenПервый аргумент обычно должен быть списком (если вы не передали shell=True). No such file or directory почти наверняка вызвано отсутствием файла с именем "htmldoc -t pdf --quiet '... в системе (он пытается найти и запустить программу с именем для всего строкового значения).

Во-вторых, если вы дадите htmldoc html на его стандартный ввод, он выдаст pdf на свой стандартный вывод, что позволит избежать необходимости во временном файле.

Попробуйте (не проверено):

htmldoc = subprocess.Popen(
  ['/usr/bin/htmldoc', '-t', 'pdf', '--webpage', '-'], 
  stdin=subprocess.PIPE, stdout=subprocess.PIPE, stderr=subprocess.PIPE
)
stdout, stderr = htmldoc.communicate(html)

NB: заменить /usr/bin/htmldoc для реального пути к htmldoc в вашей системе.

- Аргумент к программе htmldoc, сообщает ей прочитать из stdin. Вы передадите строковое значение html (html) к htmldoc's stdin в качестве аргумента htmldoc.communicate вызов. Полученный вывод PDF должен быть доступен в stdoutи любые другие сообщения или статистику в stderr,

Изменить: документация кажется немного вялым, но есть немало. Возможно, вам повезет больше с html на одной странице или в pdf- версиях, или с man-страницей.

Также обязательно передайте строку или что-то подобное в стандартный поток процесса htmldoc. Передача объекта StringIO напрямую, как подразумевалось в моем предыдущем фрагменте кода, не будет работать.

Blergh. Какое ужасное требование и ужасная программа.

Кажется, нет никакого способа принять содержимое для преобразования в качестве параметра командной строки. Тем не менее, кажется, что он принимает URL. Таким образом, возможно, вы могли бы передать созданный URL-адрес, который ссылается на представление на том же сервере, и в этом втором представлении вывести ваш визуализированный шаблон, который затем выбирается HTMLDOC, запущенным из первого представления. Просто имейте в виду, что это не будет работать с сервером разработки, так как он однопоточный, поэтому представления будут вечно ждать друг друга.

Другие вопросы по тегам