Как конфертировать из unicode в utf8 в python?
Я работаю над своим скриптом Python для извлечения данных из базы данных sqlite3 для медиа-приложения xbmc.
Я вижу, что в моем коде он будет извлекать данные, используя объект Unicode, где у меня будут строки (u'
, u
а также L
,
Я хочу преобразовать его обратно в обычные строки из объекта Unicode в UTF8.
Вот код:
programs = None
daysLimit = 14
start = datetime.datetime.now()
end = start + datetime.timedelta(days = daysLimit)
cur.execute('SELECT channel, title, start_date, stop_date FROM programs WHERE channel')
programs = cur.fetchall()
print(programs)
cur.close()
Вот журнал xbmc:
03:49:03 T:3628 NOTICE: [(u'101 ABC FAMILY ', u'The Middle - The Ditch',
20140520170000L, 20140520173000L), (u'101 ABC FAMILY ', u'The Goonies',
20140520173000L, 20140520200000L), (u'101 ABC FAMILY ', u'Pirates of the Caribbean: On Stranger Tides',
20140520200000L, 20140520230000L), (u'101 ABC FAMILY ', u'The 700 Club',
20140520230000L, 20140521000000L), (u'101 ABC FAMILY ', u'The Fresh Prince of Bel-Air - Day Damn One',
20140521000000L, 20140521003000L), (u'101 ABC FAMILY ', u'The Fresh Prince of Bel-Air - Lucky Charm',
20140521003000L, 20140521010000L), (u'101 ABC FAMILY ', u'The Fresh Prince of Bel-Air - The Ethnic Tip',
20140521010000L, 20140521013000L), (u'101 ABC FAMILY ', u'The Fresh Prince of Bel-Air - The Young and the Restless',
20140521013000L, 20140521020000L), (u'101 ABC FAMILY ', u'Summer Sexy With T25!',
20140521020000L, 20140521023000L), (u'101 ABC FAMILY ', u'Paid Programming',
20140521023000L, 20140521030000L)
Я хочу игнорировать строки (u'
, u
а также L
поэтому я хочу, чтобы это выглядело так:
'101 ABC FAMILY ', 'The Middle - The Ditch', 20140520170000, 20140520173000,
'101 ABC FAMILY ', 'The Goonies', 20140520173000, 20140520200000,
'101 ABC FAMILY ', 'Pirates of the Caribbean: On Stranger Tides', 20140520200000, 20140520230000,
'101 ABC FAMILY ', 'The 700 Club', 20140520230000, 20140521000000,
'101 ABC FAMILY ', 'The Fresh Prince of Bel-Air - Day Damn One', 20140521000000, 20140521003000,
and so on...
Подскажите, пожалуйста, как я могу конвертировать из объекта Unicode в UTF8, используя версию Python 2.6?
2 ответа
Ваша проблема в том, что вы пытаетесь отобразить данные, ВМЕСТО вы отображаете представление Python, если этот объект.
Таким образом, он содержит метаданные типа u, L и т. Д. Если вы хотите отображать данные так, как вам нужно, вы должны написать код для их обработки.
Например:
for row in cur.fetchall():
print u"'{row[0]}', '{row[1]}', '{row[2]}', '{row[3]}', '{row[4]}'".format(row=row)
Так будет выглядеть
'1', '2', '3', '4'
'1', '2', '3', '4'
'1', '2', '3', '4'
Но... как я вижу, вы делаете структуру похожей на CSV-файл (значения через запятую), не так ли? Итак, может быть, вы должны прочитать о модуле Python CSV?
L
Постфиксы означают длинные целые числа. Это то же самое, что и (короткие) целые числа; там действительно нет необходимости конвертировать их. Это только ихrepr()
выход, который включает в себяL
; Напечатайте значение напрямую или запишите его в файл иL
Постфикс не включен.Значения Unicode могут быть закодированы в UTF-8 с помощью
unicode.encode()
метод:encoded = unicodestr.encode('utf8')
Ваша говядина с представлением списка здесь; Вы зарегистрировали все строки, и контейнеры Python представляют их содержимое, вызывая repr()
на каждом значении. Эти представления отлично подходят для отладки, поскольку их типы сделаны очевидными.
Это зависит от того, что вы будете делать с этими значениями дальше. Как правило, рекомендуется использовать Unicode во всем коде и кодировать только в последний момент (при записи в файл, печати или отправке по сети). Многие методы справляются с этим для вас. Например, печать автоматически закодирует кодек вашего терминала. При добавлении в файл XML большинство библиотек XML обрабатывают Unicode для вас. И т.п.