Как превратить HTML в Markdown с Python с поддержкой сносок?

Question

Как превратить HTML в Markdown с Python с поддержкой сносок?

Я использую сценарий Aaron Swartz HTML2Text.py, чтобы превратить HTML в Markdown в моем веб-приложении. Тем не менее, он не поддерживает сноски (<sup> тег удаляется). Я хочу сделать его функциональным с поддержкой сносок, но не могу понять, что делать.

Я попробовал этот код, но он, кажется, не работает (я добавил self.sup = 0 в начале сценария):

 if tag == "sup":
        if start:
            self.p(); self.o('[^] ', 0, 1); self.start = 1
            self.sup += 1
        else:
            self.sup -= 1
            self.p()

а также просто:

if tag == "sup":
    self.sup()

Проблема в том, что <sup> теги удаляются полностью, <li> теги теряют свой идентификатор и <a> теги теряют свои значения, поэтому я получаю нерабочие ссылки.

Может ли кто-нибудь помочь мне добавить поддержку для <sup> тег и сноски в этом скрипте?

Сценарий доступен здесь (это слишком долго, чтобы оставлять сообщения здесь). Я использую Python 2.7.9.

Спасибо:)

ОБНОВЛЕНИЕ: с этим кодом:

        if tag == "sup" and start:
        if has_key(attrs, 'id'):
            id = attrs.get('id', '').replace("fnref:", "")
            self.o("[^" + escape_md(id) + "]")

Это делает <sup> но это не включает <a> внутри или подключается к <li> внизу с фактической сноской.

0

python html python-2.7 markdown multimarkdown

Источник

user5049332 26 июн '15 в 08:16

0 ответов

Другие вопросы по тегам python html python-2.7 markdown multimarkdown