Сколько файлов генерирует zarr?

Я ищу поточно-ориентированную альтернативу hdf5 для чтения в многопроцессорной среде и наткнулся на zarr, который, согласно бенчмаркам, в основном заменяет h5py в среде python.

Я попробовал это, и пока все выглядит хорошо, но я не могу обернуть голову количеством файлов, выводимых zarr.

Если я записываю в h5-файл с h5py, то получается только один файл, тогда как zarr, похоже, выдает произвольное количество файлов в подпапке.

Кто-нибудь объяснит мне, почему это так и от чего зависит точное количество создаваемых файлов?

заранее спасибо

1 ответ

Решение

Zarr обычно отображает ключи (определенные индексы чанка) в значения (двоичные двоичные объекты), представляющие данные этого чанка. Если вы используете DirectoryStore это приводит к тому, что на диск записывается несколько разных файлов. Количество просматриваемых файлов будет зависеть от того, сколько блоков у вас в массивах и какие содержат нетривиальное содержимое (например, ненулевые значения).

Другие вопросы по тегам