Почему мы НЕ должны использовать sys.setdefaultencoding("utf-8") в скрипте py?
Я видел несколько скриптов py, которые используют это в верхней части скрипта. В каких случаях его следует использовать?
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
4 ответа
Согласно документации: Это позволяет вам переключаться с ASCII по умолчанию на другие кодировки, такие как UTF-8, которые среда исполнения Python будет использовать всякий раз, когда ему нужно будет декодировать строковый буфер в Unicode.
Эта функция доступна только во время запуска Python, когда Python сканирует среду. Он должен вызываться в общесистемном модуле, sitecustomize.py
После того, как этот модуль был оценен, setdefaultencoding()
функция удалена из sys
модуль.
Единственный способ на самом деле использовать его - это перезагрузить хак, который возвращает атрибут обратно.
Кроме того, использование sys.setdefaultencoding()
всегда был обескуражен, и он стал неактивным в py3k. Кодировка py3k жестко привязана к "utf-8", и ее изменение вызывает ошибку.
Я предлагаю несколько указателей для чтения:
- http://blog.ianbicking.org/illusive-setdefaultencoding.html
- http://nedbatchelder.com/blog/200401/printing_unicode_from_python.html
- http://www.diveintopython3.net/strings.html
- http://web.archive.org/web/20120722170929/http://boodebr.org/main/python/all-about-python-and-unicode
- http://blog.notdot.net/2010/07/Getting-unicode-right-in-Python
ТЛ; др
Ответ НИКОГДА! (если вы действительно не знаете, что делаете)
9/10 раз решение может быть решено с правильным пониманием кодирования / декодирования.
1/10 человек имеют неправильно определенную локаль или среду и должны установить:
PYTHONIOENCODING="UTF-8"
в их среде, чтобы исправить проблемы печати консоли.
Что оно делает?
sys.setdefaultencoding("utf-8")
(вычеркнуто, чтобы избежать повторного использования) изменяет кодировку / декодирование по умолчанию, используемое всякий раз, когда Python 2.x должен преобразовать Unicode() в str() (и наоборот), а кодировка не указана. То есть:
str(u"\u20AC")
unicode("€")
"{}".format(u"\u20AC")
В Python 2.x кодировка по умолчанию установлена в ASCII, и приведенные выше примеры не будут работать с:
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 0: ordinal not in range(128)
(Моя консоль настроена как UTF-8, поэтому "€" = '\xe2\x82\xac'
отсюда исключение на \xe2
)
или же
UnicodeEncodeError: 'ascii' codec can't encode character u'\u20ac' in position 0: ordinal not in range(128)
sys.setdefaultencoding("utf-8")
позволит мне это сработать, но не обязательно будет работать для людей, которые не используют UTF-8. По умолчанию ASCII гарантирует, что предположения о кодировке не будут включены в код
Приставка
sys.setdefaultencoding("utf-8")
также имеет побочный эффект появления исправить sys.stdout.encoding
Используется при печати символов на консоли. Python использует языковой стандарт пользователя (Linux/OS X/Un*x) или кодовую страницу (Windows), чтобы установить это. Иногда язык пользователя нарушается и требует только PYTHONIOENCODING
исправить кодировку консоли.
Пример:
$ export LANG=en_GB.gibberish
$ python
>>> import sys
>>> sys.stdout.encoding
'ANSI_X3.4-1968'
>>> print u"\u20AC"
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode character u'\u20ac' in position 0: ordinal not in range(128)
>>> exit()
$ PYTHONIOENCODING=UTF-8 python
>>> import sys
>>> sys.stdout.encoding
'UTF-8'
>>> print u"\u20AC"
€
Что такого плохого в sys.setdefaultencoding ("utf-8")?
Люди разрабатывали Python 2.x в течение 16 лет, понимая, что кодировка по умолчанию -ASCII. UnicodeError
Методы обработки исключений были написаны для обработки преобразований строки в Unicode для строк, которые, как обнаружено, содержат не-ASCII.
С https://anonbadger.wordpress.com/2015/06/16/why-sys-setdefaultencoding-will-break-code/
def welcome_message(byte_string):
try:
return u"%s runs your business" % byte_string
except UnicodeError:
return u"%s runs your business" % unicode(byte_string,
encoding=detect_encoding(byte_string))
print(welcome_message(u"Angstrom (Å®)".encode("latin-1"))
Перед установкой кодирования по умолчанию этот код не сможет декодировать "Å" в кодировке ascii, а затем войдет в обработчик исключений, чтобы угадать кодировку и правильно превратить его в юникод. Печать: Angstrom (Å®) управляет вашим бизнесом. После того, как вы установили значение по умолчанию для utf-8, код обнаружит, что byte_string может интерпретироваться как utf-8, и поэтому он будет манипулировать данными и вернет это вместо этого: Angstrom (Ů) управляет вашим бизнесом.
Изменение того, что должно быть константой, будет иметь драматические последствия для модулей, от которых вы зависите. Лучше просто исправить данные, входящие и исходящие из вашего кода.
Пример задачи
Хотя установка defaultencoding в UTF-8 не является основной причиной в следующем примере, она показывает, как проблемы маскируются и как, когда изменяется входная кодировка, код ломается неочевидным образом: UnicodeDecodeError: кодек utf8 может не декодировать байт 0x80 в позиции 3131: неверный стартовый байт
#!/usr/bin/env python
#-*- coding: utf-8 -*-
u = u'moçambique'
print u.encode("utf-8")
print u
chmod +x test.py
./test.py
moçambique
moçambique
./test.py > output.txt
Traceback (most recent call last):
File "./test.py", line 5, in <module>
print u
UnicodeEncodeError: 'ascii' codec can't encode character
u'\xe7' in position 2: ordinal not in range(128)
на оболочке работает, отправка в sdtout нет, так что это один из обходных путей, чтобы написать в stdout.
Я сделал другой подход, который не запускается, если sys.stdout.encoding не определен, или, другими словами, сначала нужно экспортировать PYTHONIOENCODING=UTF-8, чтобы записать в stdout.
import sys
if (sys.stdout.encoding is None):
print >> sys.stderr, "please set python env PYTHONIOENCODING=UTF-8, example: export PYTHONIOENCODING=UTF-8, when write to stdout."
exit(1)
Итак, используя тот же пример:
export PYTHONIOENCODING=UTF-8
./test.py > output.txt
буду работать
Первая опасность заключается в
reload(sys)
,Когда вы перезагружаете модуль, вы фактически получаете две копии модуля во время выполнения. Старый модуль - это объект Python, как и все остальное, и он остается живым, пока есть ссылки на него. Таким образом, половина объектов будет указывать на старый модуль, а половина на новый. Когда вы вносите какое-либо изменение, вы никогда не увидите его появления, когда какой-то случайный объект не увидит изменения:
(This is IPython shell) In [1]: import sys In [2]: sys.stdout Out[2]: <colorama.ansitowin32.StreamWrapper at 0x3a2aac8> In [3]: reload(sys) <module 'sys' (built-in)> In [4]: sys.stdout Out[4]: <open file '<stdout>', mode 'w' at 0x00000000022E20C0> In [11]: import IPython.terminal In [14]: IPython.terminal.interactiveshell.sys.stdout Out[14]: <colorama.ansitowin32.StreamWrapper at 0x3a9aac8>
Сейчас,
sys.setdefaultencoding()
правильныйВсе, на что это влияет, - неявное преобразование.
str<->unicode
, Сейчас,utf-8
самая разумная кодировка на планете (обратно совместимая с ASCII и всеми), преобразование теперь "просто работает", что может пойти не так?Ну что угодно. И это опасность.
- Там может быть какой-то код, который опирается на
UnicodeError
выбрасывается для ввода не-ASCII или выполняет перекодирование с помощью обработчика ошибок, который теперь дает неожиданный результат. И поскольку весь код протестирован с настройками по умолчанию, вы находитесь здесь на "неподдерживаемой" территории, и никто не дает вам гарантий того, как будет работать их код. - Транскодирование может привести к неожиданным или непригодным результатам, если не все в системе использует UTF-8, потому что Python 2 на самом деле имеет несколько независимых "кодировок строк по умолчанию". (Помните, что программа должна работать для клиента, на оборудовании клиента.)
- Опять же, хуже всего то, что вы никогда не узнаете об этом, потому что преобразование неявное - вы не знаете, когда и где оно происходит. (Python Zen, koan 2, ахой!) Вы никогда не узнаете, почему (и если) ваш код работает в одной системе и ломается в другой. (Или еще лучше, работает в IDE и ломается в консоли.)
- Там может быть какой-то код, который опирается на