Как превратить HTML в Markdown с Python с поддержкой сносок?
Я использую сценарий Aaron Swartz HTML2Text.py, чтобы превратить HTML в Markdown в моем веб-приложении. Тем не менее, он не поддерживает сноски (<sup>
тег удаляется). Я хочу сделать его функциональным с поддержкой сносок, но не могу понять, что делать.
Я попробовал этот код, но он, кажется, не работает (я добавил self.sup = 0
в начале сценария):
if tag == "sup":
if start:
self.p(); self.o('[^] ', 0, 1); self.start = 1
self.sup += 1
else:
self.sup -= 1
self.p()
а также просто:
if tag == "sup":
self.sup()
Проблема в том, что <sup>
теги удаляются полностью, <li>
теги теряют свой идентификатор и <a>
теги теряют свои значения, поэтому я получаю нерабочие ссылки.
Может ли кто-нибудь помочь мне добавить поддержку для <sup>
тег и сноски в этом скрипте?
Сценарий доступен здесь (это слишком долго, чтобы оставлять сообщения здесь). Я использую Python 2.7.9.
Спасибо:)
ОБНОВЛЕНИЕ: с этим кодом:
if tag == "sup" and start:
if has_key(attrs, 'id'):
id = attrs.get('id', '').replace("fnref:", "")
self.o("[^" + escape_md(id) + "]")
Это делает <sup>
но это не включает <a>
внутри или подключается к <li>
внизу с фактической сноской.