Как я могу обработать неправильно закодированный символ с Python 2?

Question

Файл HTML, который я получаю, содержит некоторые символы, которые не поддерживаются кодировкой, указанной в заголовке HTML:

Я обнаружил, что следующие не поддерживаются кодировкой Shift_JIS, но фактически используются. Мой браузер может правильно отображать эти символы.

Когда я пытаюсь прочитать этот HTML-файл и декодировать для обработки, я получаю UnicodeDecodeError.

url = 'http://matsucon.net/material/dic/kao09.html'
response = urllib2.urlopen(url)
response.read().decode('shift_jis_2004')

Любой хороший способ обработать HTML, который содержит неправильно закодированные символы, без получения ошибки?

python unicode internationalization shift-jis

Источник

user4035840 27 ноя '14 в 09:28

1 ответ

Решение

Другие вопросы по тегам python unicode internationalization shift-jis

user4154185 27 ноя '14 в 09:40 2014-11-27 09:40 · Accepted Answer · 2014-11-27 09:40

Попробуй это:

response.read().decode('shift_jis_2004',errors='ignore')

Источник

user4154185 27 ноя '14 в 09:40