Конвертировать HTML-сущность в Python Emoji
Скажем, у меня есть следующая сущность смайликов HTML: '& # x1f604;'
Обратите внимание, что на самом деле не существует пробела между 4 и; это просто так, что это не выглядит как смайлик
Форма Emoji Python: u "\U0001f604"
Как мне преобразовать все сущности смайликов HTML в их форму Python?
Вещи, которые я пробовал до сих пор:
- Кодировать в utf-8
- Распакуйте текст, используя HTML Parser, а затем конвертируйте
- Используйте регулярное выражение (не удалось получить что-то, что работало бы для всех сущностей смайликов HTML - не так просто, как обмен & # x с \U000, как это работает только для некоторых сущностей)
1 ответ
Решение
HTMLParser.unescape
делает именно это:
In [3]: HTMLParser.HTMLParser().unescape( '😄' )
Out[3]: u'\U0001f604'