Как заставить Django slugify правильно работать со строками Unicode?
Что я могу сделать, чтобы предотвратить slugify
отсеивать не-ASCII буквенно-цифровые символы? (Я использую Django 1.0.2)
http://cnprog.com/ есть китайские символы в URL-адресах вопросов, поэтому я посмотрел их код. Они не используют slugify
в шаблонах, вместо этого они вызывают этот метод в Question
модель, чтобы получить постоянные ссылки
def get_absolute_url(self):
return '%s%s' % (reverse('question', args=[self.id]), self.title)
Они убивают URL или нет?
8 ответов
Существует пакет python, называемый unidecode, который я принял для форума AskBot Q&A, он хорошо работает для латинских алфавитов и даже выглядит разумно для греческого:
>>> import unidecode
>>> from unidecode import unidecode
>>> unidecode(u'διακριτικός')
'diakritikos'
Это делает что-то странное с азиатскими языками:
>>> unidecode(u'影師嗎')
'Ying Shi Ma '
>>>
Имеет ли это смысл?
В askbot мы вычисляем слагов так:
from unidecode import unidecode
from django.template import defaultfilters
slug = defaultfilters.slugify(unidecode(input_text))
С Джанго>= 1,9, django.utils.text.slugify
имеет allow_unicode
параметр:
>>> slugify("你好 World", allow_unicode=True)
"你好-world"
Если вы используете Django <= 1.8 (что не следует делать с апреля 2018 года), вы можете получить код из Django 1.9.
Команда веб-сайта Mozilla работает над реализацией: https://github.com/mozilla/unicode-slugify пример кода на http://davedash.com/2011/03/24/how-we-slug-at-mozilla/
Кроме того, версия slugify для Django не использует флаг re.UNICODE, поэтому она даже не будет пытаться понять значение \w\s
поскольку это относится к не ascii символов.
Эта пользовательская версия работает хорошо для меня:
def u_slugify(txt):
"""A custom version of slugify that retains non-ascii characters. The purpose of this
function in the application is to make URLs more readable in a browser, so there are
some added heuristics to retain as much of the title meaning as possible while
excluding characters that are troublesome to read in URLs. For example, question marks
will be seen in the browser URL as %3F and are thereful unreadable. Although non-ascii
characters will also be hex-encoded in the raw URL, most browsers will display them
as human-readable glyphs in the address bar -- those should be kept in the slug."""
txt = txt.strip() # remove trailing whitespace
txt = re.sub('\s*-\s*','-', txt, re.UNICODE) # remove spaces before and after dashes
txt = re.sub('[\s/]', '_', txt, re.UNICODE) # replace remaining spaces with underscores
txt = re.sub('(\d):(\d)', r'\1-\2', txt, re.UNICODE) # replace colons between numbers with dashes
txt = re.sub('"', "'", txt, re.UNICODE) # replace double quotes with single quotes
txt = re.sub(r'[?,:!@#~`+=$%^&\\*()\[\]{}<>]','',txt, re.UNICODE) # remove some characters altogether
return txt
Обратите внимание на последнюю замену регулярных выражений. Это обходной путь к проблеме с более надежным выражением r'\W'
, который, кажется, либо удаляет некоторые не-ascii символы, либо неправильно перекодирует их, как показано в следующем сеансе интерпретатора Python:
Python 2.5.1 (r251:54863, Jun 17 2009, 20:37:34)
[GCC 4.0.1 (Apple Inc. build 5465)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import re
>>> # Paste in a non-ascii string (simplified Chinese), taken from http://globallives.org/wiki/152/
>>> str = '您認識對全球社區感興趣的中國攝影師嗎'
>>> str
'\xe6\x82\xa8\xe8\xaa\x8d\xe8\xad\x98\xe5\xb0\x8d\xe5\x85\xa8\xe7\x90\x83\xe7\xa4\xbe\xe5\x8d\x80\xe6\x84\x9f\xe8\x88\x88\xe8\xb6\xa3\xe7\x9a\x84\xe4\xb8\xad\xe5\x9c\x8b\xe6\x94\x9d\xe5\xbd\xb1\xe5\xb8\xab\xe5\x97\x8e'
>>> print str
您認識對全球社區感興趣的中國攝影師嗎
>>> # Substitute all non-word characters with X
>>> re_str = re.sub('\W', 'X', str, re.UNICODE)
>>> re_str
'XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX\xa3\xe7\x9a\x84\xe4\xb8\xad\xe5\x9c\x8b\xe6\x94\x9d\xe5\xbd\xb1\xe5\xb8\xab\xe5\x97\x8e'
>>> print re_str
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX?的中國攝影師嗎
>>> # Notice above that it retained the last 7 glyphs, ostensibly because they are word characters
>>> # And where did that question mark come from?
>>>
>>>
>>> # Now do the same with only the last three glyphs of the string
>>> str = '影師嗎'
>>> print str
影師嗎
>>> str
'\xe5\xbd\xb1\xe5\xb8\xab\xe5\x97\x8e'
>>> re.sub('\W','X',str,re.U)
'XXXXXXXXX'
>>> re.sub('\W','X',str)
'XXXXXXXXX'
>>> # Huh, now it seems to think those same characters are NOT word characters
Я не уверен, что проблема выше, но я предполагаю, что это происходит от " все, что классифицируется как буквенно-цифровой в базе данных свойств символов Unicode" и как это реализовано. Я слышал, что python 3.x имеет высокий приоритет для лучшей обработки юникода, так что это может быть уже исправлено. Или, может быть, это правильное поведение Python, и я неправильно использую Unicode и / или китайский язык.
На данный момент обходной путь - избегать классов символов и делать замены на основе явно определенных наборов символов.
Я боюсь, что определение слизняка в django означает ascii, хотя в django docs это явно не указано. Это источник defaultfilters для slugify... вы можете видеть, что значения конвертируются в ascii, с опцией 'ignore ' в случае ошибок:
import unicodedata
value = unicodedata.normalize('NFKD', value).encode('ascii', 'ignore')
value = unicode(re.sub('[^\w\s-]', '', value).strip().lower())
return mark_safe(re.sub('[-\s]+', '-', value))
Исходя из этого, я думаю, что cnprog.com не использует официальный slugify
функция. Вы можете адаптировать приведенный выше фрагмент django, если хотите другое поведение.
При этом, однако, RFC для URL-адресов действительно утверждает, что не-us-ascii символы (или, более конкретно, что-либо, кроме буквенно-цифровых символов и $-_.+!*'()) Должны быть закодированы с использованием шестнадцатеричной записи%, Если вы посмотрите на фактический необработанный GET-запрос, который отправляет ваш браузер (скажем, с помощью Firebug), вы увидите, что китайские иероглифы на самом деле кодируются перед отправкой... браузер просто выглядит красиво на дисплее. Я подозреваю, что именно поэтому slugify настаивает только на ascii, fwiw.
Вы можете посмотреть на: https://github.com/un33k/django-uuslug
Он позаботится о обоих "U" для вас. U в уникальном и U в Unicode.
Это сделает работу за вас без проблем.
Это то, что я использую:
http://trac.django-fr.org/browser/site/trunk/djangofr/links/slughifi.py
SlugHiFi - это оболочка для регулярного слуги, с той лишь разницей, что он заменяет национальные символы их аналогами в английском алфавите.
Таким образом, вместо "Ą" вы получаете "A", вместо "Ł" => "L" и так далее.
Я заинтересован в разрешении только символов ASCII в слаге, поэтому я попытался сравнить некоторые из доступных инструментов для той же строки:
In [5]: %timeit slugify('Παίζω τρέχω %^&*@# και γ%^(λώ la fd/o', only_ascii=True) 37.8 µs ± 86.7 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each) 'paizo-trekho-kai-glo-la-fdo'
In [3]: %timeit slugify('Παίζω τρέχω %^&*@# και γ%^(λώ la fd/o') 35.3 µs ± 303 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each) 'paizo-trekho-kai-g-lo-la-fd-o'
In [3]: %timeit slugify('Παίζω τρέχω %^&*@# και γ%^(λώ la fd/o') 47.1 µs ± 1.94 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each) 'Paizo-trekho-kai-g-lo-la-fd-o'
In [3]: %timeit slugify('Παίζω τρέχω %^&*@# και γ%^(λώ la fd/o') 24.6 µs ± 122 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each) 'paizo-trekho-kai-g-lo-la-fd-o'
django.utils.text.slugify
с Unidecode:In [15]: %timeit slugify(unidecode('Παίζω τρέχω %^&*@# και γ%^(λώ la fd/o')) 36.5 µs ± 89.7 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each) 'paizo-trekho-kai-glo-la-fdo'