Бред из урлопена

Question

Бред из урлопена

Я пытаюсь прочитать некоторые файлы utf-8 с адресов в приведенном ниже коде. Это работает для большинства из них, но для некоторых файлов urllib2 (и urllib) не может прочитать.

Очевидный ответ здесь заключается в том, что второй файл поврежден, но странно то, что IE читает их оба без проблем. Код был протестирован как на XP, так и на Linux, с одинаковыми результатами. Любые предложения?

import urllib2
#This works:
f=urllib2.urlopen("http://www.gutenberg.org/cache/epub/145/pg145.txt")
line=f.readline()
print "this works: %s)" %(line)
line=unicode(line,'utf-8') #... works fine

#This doesn't
f=urllib2.urlopen("http://www.gutenberg.org/cache/epub/144/pg144.txt")
line=f.readline()
print "this doesn't: %s)" %(line)
line=unicode(line,'utf-8')#...causes an exception:

2

python utf-8 urlopen

Источник

user1023380 01 ноя '11 в 09:43

3 ответа

Другие вопросы по тегам python utf-8 urlopen

user635879 01 ноя '11 в 10:09 2011-11-01 10:09 · Answer 1 · 2011-11-01 10:09

>>> f=urllib2.urlopen("http://www.gutenberg.org/cache/epub/144/pg144.txt")
>>> f.headers.dict
{'content-length': '304513', ..., 'content-location': 'pg144.txt.utf8.gzip', 'content-encoding': 'gzip', ..., 'content-type': 'text/plain; charset=utf-8'}

Либо установите заголовок, который запрещает сайту отправлять gzip-кодированный ответ, либо сначала декодируйте его.

user99057 01 ноя '11 в 10:06 2011-11-01 10:06 · Answer 2 · 2011-11-01 10:06

Похоже, что запрашиваемый вами URL ссылается на частный кеш. Попробуйте вместо этого http://www.gutenberg.org/files/144/144-0.txt (см. http://www.gutenberg.org/ebooks/144).

Если вы действительно хотите использовать /cache/ URL: сервер отправляет вам сжатые данные, а не юникод. urllib2 не запрашивает сжатые данные и не декодирует их, что является правильным поведением. Смотрите этот вопрос о том, как распаковать его.

user1022392 01 ноя '11 в 10:08 2011-11-01 10:08 · Answer 3 · 2011-11-01 10:08

Вы знаете, что это не решение, но вы должны посмотреть библиотеку http://pypi.python.org/pypi/requests, независимо от того, хотите ли вы использовать urllib, можете посмотреть исходный код запроса, чтобы понять, как он работает с utf-8 строк.

-1

Источник

user1022392 01 ноя '11 в 10:08