Читатель Python UTF-16 CSV

Question

Читатель Python UTF-16 CSV

У меня есть файл UTF-16 CSV, который я должен прочитать. Модуль Python CSV, похоже, не поддерживает UTF-16.

Я использую Python 2.7.2. Файлы CSV, которые мне нужно проанализировать, имеют огромный размер и занимают несколько ГБ данных.

Ответы на вопросы Джона Мачина ниже

print repr(open('test.csv', 'rb').read(100))

Вывод с test.csv, имеющим только abc в качестве содержимого

'\xff\xfea\x00b\x00c\x00'

Я думаю, что CSV-файл был создан на машине Windows в США. Я использую Mac OSX Lion.

Если я использую код, предоставленный phihag и test.csv, содержащий одну запись.

Пример содержимого test.csv. Ниже приведен вывод print repr(open('test.csv', 'rb'). Read(1000))

'\xff\xfe1\x00,\x002\x00,\x00G\x00,\x00S\x00,\x00H\x00 \x00f\x00\xfc\x00r\x00 \x00e\x00 \x00\x96\x00 \x00m\x00 \x00\x85\x00,\x00,\x00I\x00\r\x00\n\x00'

Код по phihag

import codecs
import csv
with open('test.csv','rb') as f:
      sr = codecs.StreamRecoder(f,codecs.getencoder('utf-8'),codecs.getdecoder('utf-8'),codecs.getreader('utf-16'),codecs.getwriter('utf-16'))      
      for row in csv.reader(sr):
         print row

Вывод вышеуказанного кода

['1', '2', 'G', 'S', 'H f\xc3\xbcr e \xc2\x96 m \xc2\x85']
['', '', 'I']

ожидаемый результат

['1', '2', 'G', 'S', 'H f\xc3\xbcr e \xc2\x96 m \xc2\x85','','I']

10

python csv utf-16

Источник

user1146911 07 фев '12 в 14:16

4 ответа

Решение

Пример документации модуля Python 2.x csv показывает, как обрабатывать другие кодировки.

4

Источник

user235698 08 фев '12 в 01:48

Я настоятельно рекомендую вам перекодировать ваши файлы в UTF-8. При очень вероятном условии, что у вас нет символов Unicode за пределами BMP, вы можете воспользоваться тем фактом, что UTF-16 является кодировкой фиксированной длины для чтения блоков фиксированной длины из вашего входного файла, не беспокоясь о блок-блоке. границы.

Шаг 1: Определите, какая кодировка у вас есть на самом деле. Изучите первые несколько байтов вашего файла:

print repr(open('thefile.csv', 'rb').read(100))

Четыре возможных способа кодирования u'abc'

\xfe\xff\x00a\x00b\x00c -> utf_16
\xff\xfea\x00b\x00c\x00 -> utf_16
\x00a\x00b\x00c -> utf_16_be
a\x00b\x00c\x00 -> utf_16_le

Если у вас есть какие-либо проблемы с этим шагом, отредактируйте свой вопрос, чтобы включить результаты выше print repr()

Шаг 2: Вот скрипт Python 2.X recode-UTF-16*-to-UTF-8:

import sys
infname, outfname, enc = sys.argv[1:4]
fi = open(infname, 'rb')
fo = open(outfname, 'wb')
BUFSIZ = 64 * 1024 * 1024
first = True
while 1:
    buf = fi.read(BUFSIZ)
    if not buf: break
    if first and enc == 'utf_16':
        bom = buf[:2]
        buf = buf[2:]
        enc = {'\xfe\xff': 'utf_16_be', '\xff\xfe': 'utf_16_le'}[bom]
        # KeyError means file doesn't start with a valid BOM
    first = False
    fo.write(buf.decode(enc).encode('utf8'))
fi.close()
fo.close()

Другие вопросы:

Вы говорите, что ваши файлы слишком большие, чтобы прочитать весь файл, перекодировать и переписать, но вы можете открыть его в vi, Пожалуйста, объясни.

<85> рассматривается как конец записи, это немного беспокоит. Похоже 0x85 распознается как NEL (код управления C1, NEWLINE). Существует большая вероятность того, что данные первоначально были закодированы в некотором устаревшем однобайтовом кодировании, где значение 0x85 имеет значение, но было перекодировано в UTF-16 при ложном предположении, что исходное кодирование было ISO-8859-1 или латинским1. Откуда появился файл? Мэйнфрейм IBM? Windows/Unix/ классический Mac? Какая страна, язык, язык? Вы, очевидно, думаете, что <85> не означает перевод строки; как вы думаете что это значит?

Пожалуйста, не стесняйтесь отправить копию сокращенного файла (который включает в себя некоторые из <85> материала) на sjmachin at lexicon dot net

Обновление на основе предоставленных образцов данных в 1 строку.

Это подтверждает мои подозрения. Прочитайте это. Вот цитата из этого:

... управляющие символы C1... редко используются напрямую, за исключением определенных платформ, таких как OpenVMS. Когда они появляются в документах, веб-страницах, сообщениях электронной почты и т. Д., Которые якобы находятся в кодировке ISO-8859-n, их позиции кода обычно ссылаются вместо этого на символы в этой позиции в проприетарной, специфичной для системы кодировке например, Windows-1252 или набор символов Apple Macintosh ("MacRoman"), которые используют коды, предоставленные для представления набора C1 с одним 8-разрядным байтом, чтобы вместо этого предоставлять дополнительные графические символы

Этот код:

s1 = '\xff\xfe1\x00,\x002\x00,\x00G\x00,\x00S\x00,\x00H\x00 \x00f\x00\xfc\x00r\x00 \x00e\x00 \x00\x96\x00 \x00m\x00 \x00\x85\x00,\x00,\x00I\x00\r\x00\n\x00'
s2 = s1.decode('utf16')
print 's2 repr:', repr(s2)
from unicodedata import name
from collections import Counter
non_ascii = Counter(c for c in s2 if c >= u'\x80')
print 'non_ascii:', non_ascii
for c in non_ascii:
    print "from: U+%04X %s" % (ord(c), name(c, "<no name>"))
    c2 = c.encode('latin1').decode('cp1252')
    print "to:   U+%04X %s" % (ord(c2), name(c2, "<no name>"))

s3 = u''.join(
    c.encode('latin1').decode('1252') if u'\x80' <= c < u'\xA0' else c
    for c in s2
    )
print 's3 repr:', repr(s3)
print 's3:', s3

производит следующее (Python 2.7.2 IDLE, Windows 7):

s2 repr: u'1,2,G,S,H f\xfcr e \x96 m \x85,,I\r\n'
non_ascii: Counter({u'\x85': 1, u'\xfc': 1, u'\x96': 1})
from: U+0085 <no name>
to:   U+2026 HORIZONTAL ELLIPSIS
from: U+00FC LATIN SMALL LETTER U WITH DIAERESIS
to:   U+00FC LATIN SMALL LETTER U WITH DIAERESIS
from: U+0096 <no name>
to:   U+2013 EN DASH
s3 repr: u'1,2,G,S,H f\xfcr e \u2013 m \u2026,,I\r\n'
s3: 1,2,G,S,H für e – m …,,I

Как вы думаете, является более разумной интерпретацией \x96:

SPA, то есть начало защищенной зоны (используется терминалами, ориентированными на блоки).
или же
EN DASH
?

Похоже, что тщательный анализ гораздо большей выборки данных оправдан. Рад был помочь.

3

Источник

user84270 07 фев '12 в 20:44

Просто откройте ваш файл с codecs.open как в

import codecs, csv

stream = codecs.open(<yourfile.csv>, encoding="utf-16")
reader = csv.reader(stream)

И работайте через вашу программу со строками Unicode, как вы должны делать в любом случае, если вы обрабатываете текст

-1

Источник

user108205 07 фев '12 в 15:04

Другие вопросы по тегам python csv utf-16

user35070 07 фев '12 в 14:23 2012-02-07 14:23 · Accepted Answer · 2012-02-07 14:23

На данный момент модуль CSV не поддерживает UTF-16.

В Python 3.x csv ожидает файл в текстовом режиме, и вы можете просто использовать параметр кодирования open заставить другую кодировку:

# Python 3.x only
import csv
with open('utf16.csv', 'r', encoding='utf16') as csvf:
    for line in csv.reader(csvf):
        print(line) # do something with the line

В Python 2.x вы можете перекодировать ввод:

# Python 2.x only
import codecs
import csv

class Recoder(object):
    def __init__(self, stream, decoder, encoder, eol='\r\n'):
        self._stream = stream
        self._decoder = decoder if isinstance(decoder, codecs.IncrementalDecoder) else codecs.getincrementaldecoder(decoder)()
        self._encoder = encoder if isinstance(encoder, codecs.IncrementalEncoder) else codecs.getincrementalencoder(encoder)()
        self._buf = ''
        self._eol = eol
        self._reachedEof = False

    def read(self, size=None):
        r = self._stream.read(size)
        raw = self._decoder.decode(r, size is None)
        return self._encoder.encode(raw)

    def __iter__(self):
        return self

    def __next__(self):
        if self._reachedEof:
            raise StopIteration()
        while True:
            line,eol,rest = self._buf.partition(self._eol)
            if eol == self._eol:
                self._buf = rest
                return self._encoder.encode(line + eol)
            raw = self._stream.read(1024)
            if raw == '':
                self._decoder.decode(b'', True)
                self._reachedEof = True
                return self._encoder.encode(self._buf)
            self._buf += self._decoder.decode(raw)
    next = __next__

    def close(self):
        return self._stream.close()

with open('test.csv','rb') as f:
    sr = Recoder(f, 'utf-16', 'utf-8')

    for row in csv.reader(sr):
        print (row)

open а также codecs.open требует, чтобы файл начинался с спецификации. Если это не так (или вы используете Python 2.x), вы все равно можете преобразовать его в память, например так:

try:
    from io import BytesIO
except ImportError: # Python < 2.6
    from StringIO import StringIO as BytesIO
import csv
with open('utf16.csv', 'rb') as binf:
    c = binf.read().decode('utf-16').encode('utf-8')
for line in csv.reader(BytesIO(c)):
    print(line) # do something with the line