Хранить ndarrays в паркет через Uber/ Petastorm?
Можно ли хранить N-мерные массивы в Parquet с помощью Uber / Petastorm?
0 ответов
Да. Petastorm предоставляет пользовательский слой кодеков и расширение схемы поверх стандартного формата Apache Parquet. N-мерные массивы / тензоры будут сериализованы в двоичные поля двоичных объектов. С точки зрения пользователя, они будут выглядеть как нативные типы, в зависимости от среды, с которой вы работаете (чистый Python/pyspark: numpy/array, tf.Tensor в Tensorflow или Tensors torch в PyTorch).
Здесь есть несколько простых примеров: https://github.com/uber/petastorm/tree/master/examples/hello_world/petastorm_dataset