Декодировать экранированные символы в URL
У меня есть список, содержащий URL-адреса с экранированными символами в них. Эти персонажи были установлены urllib2.urlopen
когда он восстанавливает HTML-страницу:
http://www.sample1webpage.com/index.php?title=%E9%A6%96%E9%A1%B5&action=edit
http://www.sample1webpage.com/index.php?title=%E9%A6%96%E9%A1%B5&action=history
http://www.sample1webpage.com/index.php?title=%E9%A6%96%E9%A1%B5&variant=zh
Есть ли способ преобразовать их обратно в их неэкранированную форму в Python?
PS: URL-адреса закодированы в UTF-8
5 ответов
Решение
urllib.unquote(
строка)
замещать
%xx
экранирует их односимвольным эквивалентом.Пример:
unquote('/%7Econnolly/')
доходность'/~connolly/'
,
А потом просто расшифровать.
Обновление: для Python 3 напишите следующее:
urllib.parse.unquote(url)
И если вы используете Python3
Вы могли бы использовать:
urllib.parse.unquote(url)
Или же urllib.unquote_plus
>>> import urllib
>>> urllib.unquote('erythrocyte+membrane+protein+1%2C+PfEMP1+%28VAR%29')
'erythrocyte+membrane+protein+1,+PfEMP1+(VAR)'
>>> urllib.unquote_plus('erythrocyte+membrane+protein+1%2C+PfEMP1+%28VAR%29')
'erythrocyte membrane protein 1, PfEMP1 (VAR)'
import re
def unquote(url):
return re.compile('%([0-9a-fA-F]{2})',re.M).sub(lambda m: chr(int(m.group(1),16)), url)