Конвертировать HTML-сущность в Python Emoji

Скажем, у меня есть следующая сущность смайликов HTML: '& # x1f604;'

Обратите внимание, что на самом деле не существует пробела между 4 и; это просто так, что это не выглядит как смайлик

Форма Emoji Python: u "\U0001f604"

Как мне преобразовать все сущности смайликов HTML в их форму Python?


Вещи, которые я пробовал до сих пор:

  • Кодировать в utf-8
  • Распакуйте текст, используя HTML Parser, а затем конвертируйте
  • Используйте регулярное выражение (не удалось получить что-то, что работало бы для всех сущностей смайликов HTML - не так просто, как обмен & # x с \U000, как это работает только для некоторых сущностей)

1 ответ

Решение

HTMLParser.unescape делает именно это:

In [3]: HTMLParser.HTMLParser().unescape( '😄' )
Out[3]: u'\U0001f604'
Другие вопросы по тегам