Конвертировать 3-байтовый стереофонический WAV-файл в массив NumPy
Мне дали большой WAV-файл непрерывной подводной записи, который я хотел бы преобразовать в массив для анализа. Я изо всех сил пытаюсь сделать это.
Пока что у меня есть:
import numpy as np
import scipy as sp
import wave as wv
import struct
wavefile = wv.open(filename,'r')
(nchannels,sampwidth,framerate,nframes,comptype,compname) = wavefile.getparams()
// read a sample as example
wavedata =wavefile.readframes(1)
Первый кадр выглядит так: '\xcd\xbc\xff@\x01\x00'. Я попытался распаковать его, используя struct, но распаковав все, что я делаю, я получаю следующую ошибку: "размер str не соответствует формату". Я предполагаю, что это связано с тем, что структура Python не может обрабатывать 24-битные данные.
Параметр wave-файла выглядит следующим образом:
- nchannels = 2
- sampwidth = 3
- =48000 кадров
- nframes=283516532L
- CompType='ОТСУТСТВУЕТ'
- compname = 'не сжато'
Кто-то знает, как прочитать 24-битный стереофонический WAV-файл в массиве?
3 ответа
Для тех с подобными проблемами я отправляю свое решение. Обратите внимание, что это преобразует 24-битный волновой файл в подписанный массив с плавающей запятой. Не указывайте часть /int2float при преобразовании только в целые числа.
frames = wavfile.readframes(nsamples)
ch1 = np.zeros(nsamples)
ch2 = np.zeros(nsamples)
int2float = (2**23)-1
for x in np.arange(int(nsamples)):
ch1_24bit_sample = frames[x*6:x*6+3]
ch2_24bit_sample = frames[x*6+3:x*6+6]
ch1_32bit_sample = bit24_2_32(ch1_24bit_sample)
ch2_32bit_sample = bit24_2_32(ch2_24bit_sample)
ch1[x]=struct.unpack('i',ch_32bit_sample)[0]
ch2[x]=struct.unpack('i',ch_32bit_sample)[0]
ch1[x]=ch1[x]/int2float
ch2[x]=ch2[x]/int2float
def bit24_2_32(strbytes):
if strbytes[2] < '\x80':
return strbytes+'\x00'
else:
return strbytes+'\xff'
Вот цикл, который обрабатывает 2, 3 и 4-байтовые файлы WAV с произвольным числом каналов:
def dataFromWave(fname):
""" return list with interleaved samples """
f = wave.open(fname, 'rb')
chans = f.getnchannels()
samps = f.getnframes()
sampwidth = f.getsampwidth()
if sampwidth == 3: #have to read this one sample at a time
s = ''
for k in xrange(samps):
fr = f.readframes(1)
for c in xrange(0,3*chans,3):
s += '\0'+fr[c:(c+3)] # put TRAILING 0 to make 32-bit (file is little-endian)
else:
s = f.readframes(samps)
f.close()
unpstr = '<{0}{1}'.format(samps*chans, {1:'b',2:'h',3:'i',4:'i',8:'q'}[sampwidth])
x = list(struct.unpack(unpstr, s))
if sampwidth == 3:
x = [k >> 8 for k in x] #downshift to get +/- 2^24 with sign extension
return x
Это старый вопрос, но если кому-то нужны дополнительные опции и нет ограничений на использование внешних модулей, то вы, вероятно, можете использовать librosa
myNdArray = librosa.core.load(wav_path, sr=sample_rate)[0]