urlparse.urljoin() не обрабатывает неправильные родительские каталоги

Question

urlparse.urljoin() не обрабатывает неправильные родительские каталоги

Есть ли способ учета "недопустимых" родительских каталогов при построении абсолютного URL-адреса из относительного, или я должен просто использовать .replace()?

>>> from urlparse import urljoin
>>> url = urljoin('http://www.example.com/path/', '../../../index.html')
>>> url
'http://www.example.com/../../index.html'
>>> url.replace('../', '')
'http://www.example.com/index.html'

А еще лучше, есть ли более чистый способ очистки URL при очистке в Python?

4

python url screen-scraping relative-url

Источник

user464744 29 ноя '12 в 04:33

1 ответ

Другие вопросы по тегам python url screen-scraping relative-url

user62262 30 мар '13 в 03:12 2013-03-30 03:12 · Answer 1 · 2013-03-30 03:12

Как вы сказали, это не имеет смысла. Вы можете пойти выше из корневого каталога. Так что нормализация второй части будет трудной, не зная намерений автора. Только ты умеешь правильно его дезинфицировать.:)

0

Источник

user62262 30 мар '13 в 03:12