Декодировать экранированные символы в URL

Question

Декодировать экранированные символы в URL

У меня есть список, содержащий URL-адреса с экранированными символами в них. Эти персонажи были установлены urllib2.urlopen когда он восстанавливает HTML-страницу:

http://www.sample1webpage.com/index.php?title=%E9%A6%96%E9%A1%B5&action=edit
http://www.sample1webpage.com/index.php?title=%E9%A6%96%E9%A1%B5&action=history
http://www.sample1webpage.com/index.php?title=%E9%A6%96%E9%A1%B5&variant=zh

Есть ли способ преобразовать их обратно в их неэкранированную форму в Python?

PS: URL-адреса закодированы в UTF-8

108

python escaping

Источник

user715415 15 ноя '11 в 13:06

5 ответов

Решение

И если вы используете Python3 Вы могли бы использовать:

urllib.parse.unquote(url)

39

Источник

user1944642 04 янв '16 в 15:03

Или же urllib.unquote_plus

>>> import urllib
>>> urllib.unquote('erythrocyte+membrane+protein+1%2C+PfEMP1+%28VAR%29')
'erythrocyte+membrane+protein+1,+PfEMP1+(VAR)'
>>> urllib.unquote_plus('erythrocyte+membrane+protein+1%2C+PfEMP1+%28VAR%29')
'erythrocyte membrane protein 1, PfEMP1 (VAR)'

18

Источник

user1098347 10 дек '15 в 04:27

Ты можешь использовать urllib.unquote

7

Источник

user218589 15 ноя '11 в 13:09

import re

def unquote(url):
  return re.compile('%([0-9a-fA-F]{2})',re.M).sub(lambda m: chr(int(m.group(1),16)), url)

6

Источник

user2209683 26 мар '13 в 00:27

Другие вопросы по тегам python escaping

user20862 15 ноя '11 в 13:09 2011-11-15 13:09 · Accepted Answer · 2011-11-15 13:09

Официальные документы.

urllib.unquote(строка)
замещать %xx экранирует их односимвольным эквивалентом.
Пример: unquote('/%7Econnolly/') доходность '/~connolly/',

А потом просто расшифровать.

Обновление: для Python 3 напишите следующее:

urllib.parse.unquote(url)

Python 3 документа

184

Источник

user20862 15 ноя '11 в 13:09