NumPy Recarray строки переменной длины
Можно ли инициализировать NumPy Recarray, который будет содержать строки, не зная заранее длины строк?
В качестве (надуманного) примера:
mydf = np.empty( (numrows,), dtype=[ ('file_name','STRING'), ('file_size_MB',float) ] )
Проблема в том, что я создаю свой rearray заранее, чтобы заполнить его информацией, и я не обязательно знаю максимальную длину file_name
заблаговременно.
Все мои попытки приводят к усечению строкового поля:
>>> mydf = np.empty( (2,), dtype=[('file_name',str),('file_size_mb',float)] )
>>> mydf['file_name'][0]='foobarasdf.tif'
>>> mydf['file_name'][1]='arghtidlsarbda.jpg'
>>> mydf
array([('', 6.9164002347457e-310), ('', 9.9413127e-317)],
dtype=[('file_name', 'S'), ('file_size_mb', '<f8')])
>>> mydf['file_name']
array(['f', 'a'],
dtype='|S1')
(Кстати, почему mydf['file_name']
покажите "f" и "a", пока mydf
показывает '' и ''?)
Точно так же, если я инициализирую с типом (скажем) |S10
за file_name
тогда вещи обрезаются на длину 10.
Единственный похожий вопрос, который я мог найти, это этот, но он вычисляет соответствующую длину строки априори и, следовательно, не совсем совпадает с моим (как я ничего не знаю заранее).
Есть ли какая-либо альтернатива, кроме как file_name
с (например) |S9999999999999
(т.е. какой-то нелепый верхний предел)?
1 ответ
Вместо использования STRING
dtype, всегда можно использовать object
как дтип. Это позволит любому объекту быть назначенным элементу массива, включая строки переменной длины Python. Например:
>>> import numpy as np
>>> mydf = np.empty( (2,), dtype=[('file_name',object),('file_size_mb',float)] )
>>> mydf['file_name'][0]='foobarasdf.tif'
>>> mydf['file_name'][1]='arghtidlsarbda.jpg'
>>> mydf
array([('foobarasdf.tif', 0.0), ('arghtidlsarbda.jpg', 0.0)],
dtype=[('file_name', '|O8'), ('file_size_mb', '<f8')])
Это противоречит духу концепции массива иметь элементы переменной длины, но это настолько близко, насколько это возможно. Идея массива заключается в том, что элементы хранятся в памяти по четко определенным и регулярно расположенным адресам памяти, что запрещает элементы переменной длины. Сохраняя указатели на строку в массиве, можно обойти это ограничение. (Это в основном то, что делает приведенный выше пример.)