Как заставить Django slugify правильно работать со строками Unicode?

Что я могу сделать, чтобы предотвратить slugify отсеивать не-ASCII буквенно-цифровые символы? (Я использую Django 1.0.2)

http://cnprog.com/ есть китайские символы в URL-адресах вопросов, поэтому я посмотрел их код. Они не используют slugify в шаблонах, вместо этого они вызывают этот метод в Question модель, чтобы получить постоянные ссылки

def get_absolute_url(self):
    return '%s%s' % (reverse('question', args=[self.id]), self.title)

Они убивают URL или нет?

8 ответов

Решение

Существует пакет python, называемый unidecode, который я принял для форума AskBot Q&A, он хорошо работает для латинских алфавитов и даже выглядит разумно для греческого:

>>> import unidecode
>>> from unidecode import unidecode
>>> unidecode(u'διακριτικός')
'diakritikos'

Это делает что-то странное с азиатскими языками:

>>> unidecode(u'影師嗎')
'Ying Shi Ma '
>>> 

Имеет ли это смысл?

В askbot мы вычисляем слагов так:

from unidecode import unidecode
from django.template import defaultfilters
slug = defaultfilters.slugify(unidecode(input_text))

С Джанго>= 1,9, django.utils.text.slugify имеет allow_unicode параметр:

>>> slugify("你好 World", allow_unicode=True)
"你好-world"

Если вы используете Django <= 1.8 (что не следует делать с апреля 2018 года), вы можете получить код из Django 1.9.

Команда веб-сайта Mozilla работает над реализацией: https://github.com/mozilla/unicode-slugify пример кода на http://davedash.com/2011/03/24/how-we-slug-at-mozilla/

Кроме того, версия slugify для Django не использует флаг re.UNICODE, поэтому она даже не будет пытаться понять значение \w\s поскольку это относится к не ascii символов.

Эта пользовательская версия работает хорошо для меня:

def u_slugify(txt):
        """A custom version of slugify that retains non-ascii characters. The purpose of this
        function in the application is to make URLs more readable in a browser, so there are 
        some added heuristics to retain as much of the title meaning as possible while 
        excluding characters that are troublesome to read in URLs. For example, question marks 
        will be seen in the browser URL as %3F and are thereful unreadable. Although non-ascii
        characters will also be hex-encoded in the raw URL, most browsers will display them
        as human-readable glyphs in the address bar -- those should be kept in the slug."""
        txt = txt.strip() # remove trailing whitespace
        txt = re.sub('\s*-\s*','-', txt, re.UNICODE) # remove spaces before and after dashes
        txt = re.sub('[\s/]', '_', txt, re.UNICODE) # replace remaining spaces with underscores
        txt = re.sub('(\d):(\d)', r'\1-\2', txt, re.UNICODE) # replace colons between numbers with dashes
        txt = re.sub('"', "'", txt, re.UNICODE) # replace double quotes with single quotes
        txt = re.sub(r'[?,:!@#~`+=$%^&\\*()\[\]{}<>]','',txt, re.UNICODE) # remove some characters altogether
        return txt

Обратите внимание на последнюю замену регулярных выражений. Это обходной путь к проблеме с более надежным выражением r'\W', который, кажется, либо удаляет некоторые не-ascii символы, либо неправильно перекодирует их, как показано в следующем сеансе интерпретатора Python:

Python 2.5.1 (r251:54863, Jun 17 2009, 20:37:34) 
[GCC 4.0.1 (Apple Inc. build 5465)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import re
>>> # Paste in a non-ascii string (simplified Chinese), taken from http://globallives.org/wiki/152/
>>> str = '您認識對全球社區感興趣的中國攝影師嗎'
>>> str
'\xe6\x82\xa8\xe8\xaa\x8d\xe8\xad\x98\xe5\xb0\x8d\xe5\x85\xa8\xe7\x90\x83\xe7\xa4\xbe\xe5\x8d\x80\xe6\x84\x9f\xe8\x88\x88\xe8\xb6\xa3\xe7\x9a\x84\xe4\xb8\xad\xe5\x9c\x8b\xe6\x94\x9d\xe5\xbd\xb1\xe5\xb8\xab\xe5\x97\x8e'
>>> print str
您認識對全球社區感興趣的中國攝影師嗎
>>> # Substitute all non-word characters with X
>>> re_str = re.sub('\W', 'X', str, re.UNICODE)
>>> re_str
'XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX\xa3\xe7\x9a\x84\xe4\xb8\xad\xe5\x9c\x8b\xe6\x94\x9d\xe5\xbd\xb1\xe5\xb8\xab\xe5\x97\x8e'
>>> print re_str
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX?的中國攝影師嗎
>>> # Notice above that it retained the last 7 glyphs, ostensibly because they are word characters
>>> # And where did that question mark come from?
>>> 
>>> 
>>> # Now do the same with only the last three glyphs of the string
>>> str = '影師嗎'
>>> print str
影師嗎
>>> str
'\xe5\xbd\xb1\xe5\xb8\xab\xe5\x97\x8e'
>>> re.sub('\W','X',str,re.U)
'XXXXXXXXX'
>>> re.sub('\W','X',str)
'XXXXXXXXX'
>>> # Huh, now it seems to think those same characters are NOT word characters

Я не уверен, что проблема выше, но я предполагаю, что это происходит от " все, что классифицируется как буквенно-цифровой в базе данных свойств символов Unicode" и как это реализовано. Я слышал, что python 3.x имеет высокий приоритет для лучшей обработки юникода, так что это может быть уже исправлено. Или, может быть, это правильное поведение Python, и я неправильно использую Unicode и / или китайский язык.

На данный момент обходной путь - избегать классов символов и делать замены на основе явно определенных наборов символов.

Я боюсь, что определение слизняка в django означает ascii, хотя в django docs это явно не указано. Это источник defaultfilters для slugify... вы можете видеть, что значения конвертируются в ascii, с опцией 'ignore ' в случае ошибок:

import unicodedata
value = unicodedata.normalize('NFKD', value).encode('ascii', 'ignore')
value = unicode(re.sub('[^\w\s-]', '', value).strip().lower())
return mark_safe(re.sub('[-\s]+', '-', value))

Исходя из этого, я думаю, что cnprog.com не использует официальный slugify функция. Вы можете адаптировать приведенный выше фрагмент django, если хотите другое поведение.

При этом, однако, RFC для URL-адресов действительно утверждает, что не-us-ascii символы (или, более конкретно, что-либо, кроме буквенно-цифровых символов и $-_.+!*'()) Должны быть закодированы с использованием шестнадцатеричной записи%, Если вы посмотрите на фактический необработанный GET-запрос, который отправляет ваш браузер (скажем, с помощью Firebug), вы увидите, что китайские иероглифы на самом деле кодируются перед отправкой... браузер просто выглядит красиво на дисплее. Я подозреваю, что именно поэтому slugify настаивает только на ascii, fwiw.

Вы можете посмотреть на: https://github.com/un33k/django-uuslug

Он позаботится о обоих "U" для вас. U в уникальном и U в Unicode.

Это сделает работу за вас без проблем.

Это то, что я использую:

http://trac.django-fr.org/browser/site/trunk/djangofr/links/slughifi.py

SlugHiFi - это оболочка для регулярного слуги, с той лишь разницей, что он заменяет национальные символы их аналогами в английском алфавите.

Таким образом, вместо "Ą" вы получаете "A", вместо "Ł" => "L" и так далее.

Я заинтересован в разрешении только символов ASCII в слаге, поэтому я попытался сравнить некоторые из доступных инструментов для той же строки:

  • Unicode Slugify:

    In [5]: %timeit slugify('Παίζω τρέχω %^&*@# και γ%^(λώ la fd/o', only_ascii=True)
    37.8 µs ± 86.7 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
    
    'paizo-trekho-kai-glo-la-fdo'
    
  • Джанго Ууслуг:

    In [3]: %timeit slugify('Παίζω τρέχω %^&*@# και γ%^(λώ la fd/o')
    35.3 µs ± 303 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
    
    'paizo-trekho-kai-g-lo-la-fd-o'
    
  • Удивительный Slugify:

    In [3]: %timeit slugify('Παίζω τρέχω %^&*@# και γ%^(λώ la fd/o')
    47.1 µs ± 1.94 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
    
    'Paizo-trekho-kai-g-lo-la-fd-o'
    
  • Python Slugify:

    In [3]: %timeit slugify('Παίζω τρέχω %^&*@# και γ%^(λώ la fd/o')
    24.6 µs ± 122 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
    
    'paizo-trekho-kai-g-lo-la-fd-o'
    
  • django.utils.text.slugify с Unidecode:

    In [15]: %timeit slugify(unidecode('Παίζω τρέχω %^&*@# και γ%^(λώ la fd/o'))
    36.5 µs ± 89.7 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
    
    'paizo-trekho-kai-glo-la-fdo'
    
Другие вопросы по тегам