Сколько файлов генерирует zarr?
Я ищу поточно-ориентированную альтернативу hdf5 для чтения в многопроцессорной среде и наткнулся на zarr, который, согласно бенчмаркам, в основном заменяет h5py в среде python.
Я попробовал это, и пока все выглядит хорошо, но я не могу обернуть голову количеством файлов, выводимых zarr.
Если я записываю в h5-файл с h5py, то получается только один файл, тогда как zarr, похоже, выдает произвольное количество файлов в подпапке.
Кто-нибудь объяснит мне, почему это так и от чего зависит точное количество создаваемых файлов?
заранее спасибо
1 ответ
Zarr обычно отображает ключи (определенные индексы чанка) в значения (двоичные двоичные объекты), представляющие данные этого чанка. Если вы используете DirectoryStore
это приводит к тому, что на диск записывается несколько разных файлов. Количество просматриваемых файлов будет зависеть от того, сколько блоков у вас в массивах и какие содержат нетривиальное содержимое (например, ненулевые значения).