Python - обнаружение кодировки и преобразование в utf-8

Question

Python - обнаружение кодировки и преобразование в utf-8

Есть ли какой-нибудь универсальный метод для обнаружения строковой кодировки? Я пользуюсь тегами IPTC и не знаю никакой кодировки. Мне нужно обнаружить это, а затем изменить их на UTF-8.

Кто-нибудь может помочь?

38

python utf-8 python-2.x

Источник

user561640 15 июл '11 в 13:24

4 ответа

Решение

Уже немного поздно, но есть и другое решение: попробуйте использовать pyicu.

Пример:

import icu
def convert_encoding(data, new_coding='UTF-8'):
    coding = icu.CharsetDetector(data).detect().getName()
    if new_coding.upper() != coding.upper():
        data = unicode(data, coding).encode(new_coding)
    return data

18

Источник

user924906 04 фев '12 в 00:12

Если вы хотите сделать это с помощью cchardet, вы можете использовать эту функцию.

import cchardet
def convert_encoding(data, new_coding = 'UTF-8'):
  encoding = cchardet.detect(data)['encoding']

  if new_coding.upper() != encoding.upper():
    data = data.decode(encoding, data).encode(new_coding)

  return data

17

Источник

user567220 15 окт '14 в 12:32

Есть еще один модуль под названием cchardet

Говорят, что это быстрее, чем Чарде.

Обратите внимание, что это требует Cython

5

Источник

user2142577 12 дек '13 в 17:06

Другие вопросы по тегам python utf-8 python-2.x

user20862 15 июл '11 в 13:25 2011-07-15 13:25 · Accepted Answer · 2011-07-15 13:25

Вы хотите использовать chardet, детектор кодирования

39

Источник

user20862 15 июл '11 в 13:25