Хранить ndarrays в паркет через Uber/ Petastorm?

Можно ли хранить N-мерные массивы в Parquet с помощью Uber / Petastorm?

0 ответов

Да. Petastorm предоставляет пользовательский слой кодеков и расширение схемы поверх стандартного формата Apache Parquet. N-мерные массивы / тензоры будут сериализованы в двоичные поля двоичных объектов. С точки зрения пользователя, они будут выглядеть как нативные типы, в зависимости от среды, с которой вы работаете (чистый Python/pyspark: numpy/array, tf.Tensor в Tensorflow или Tensors torch в PyTorch).

Здесь есть несколько простых примеров: https://github.com/uber/petastorm/tree/master/examples/hello_world/petastorm_dataset

Другие вопросы по тегам