Zarr - это пакет Python, обеспечивающий реализацию сжатых, разбитых на части, N-мерных массивов, предназначенных для использования в параллельных вычислениях.
0 ответов

Как лучше переназначить коллекцию файлов NetCDF в набор данных Zarr

Я пытаюсь переназначить коллекцию файлов NetCDF и создать набор данных Zarr на AWS S3. У меня есть 168 оригинальных классических файлов NetCDF4 с массивами измерений time: 1, y: 3840, x: 4608 порванный как chunks={'time':1, 'y':768, 'x':922}, Я хочу…
3 ответа

Доступ к одному куску в Зарре

Zarr сохраняет массив на диске в виде фрагментов, каждый фрагмент представляет собой отдельный файл. Есть ли способ получить доступ только к одному выбранному чанку (файлу)? Можно ли определить, какие чанки пусты без загрузки всего массива в память?
25 фев '19 в 08:15
1 ответ

Круглые данные Zarr от Xarray

С xarray, Я использую ds.to_zarr() записать набор данных в S3, а затем xr.open_zarr() чтобы увидеть, получу ли я тот же набор данных обратно. Мой набор данных в xarray похоже: <xarray.Dataset> Dimensions: (nv: 2, reference_time: 11, time: 11, …
10 апр '18 в 15:01
0 ответов

Несколько компрессоров для одного массива

Можно ли иметь разные компрессоры, например, с потерями и без потерь для отдельных блоков? В сценарии, где у вас есть маска важности, где вы хотите сохранить сигнал со сжатием без потерь или даже без сжатия, но имеете другие части сигнала со сжатием…
19 ноя '18 в 22:58
1 ответ

Что произойдет, если в случае одновременного доступа для чтения / записи?

В учебнике zarr написано: Массивы Zarr не предназначены для ситуаций, когда несколько читателей и писателей одновременно работают с одним и тем же массивом. Что произойдет, если это произойдет? Это потерпит крах? Неопределенное поведение? Это будет …
10 янв '19 в 11:19
2 ответа

Что такое интеллектуальный способ полной загрузки сжатого массива с диска в память - также (по сути) сжатого?

Я экспериментирую с трехмерным zarr-массивом, хранящимся на диске: Name: /data Type: zarr.core.Array Data type: int16 Shape: (102174, 1100, 900) Chunk shape: (12, 220, 180) Order: C Read-only: True Compressor: Blosc(cname='zstd', clevel=3, shuffle=B…
31 мар '19 в 17:24
1 ответ

Как мне кодировать значения NaN в numcodecs.Quantize с помощью astype='u2'?

У меня есть большой массив данных xarray, содержащий NaN, и я хочу сохранить его с помощью zarr. Я хочу минимизировать размер файла, и я согласен с потерей нескольких битов точности - 16 бит должны быть в порядке. Я пытался с помощью FixedScaleOffse…
04 апр '19 в 09:44
1 ответ

Сколько файлов генерирует zarr?

Я ищу поточно-ориентированную альтернативу hdf5 для чтения в многопроцессорной среде и наткнулся на zarr, который, согласно бенчмаркам, в основном заменяет h5py в среде python. Я попробовал это, и пока все выглядит хорошо, но я не могу обернуть голо…
12 апр '19 в 17:34
1 ответ

Проблемы с кусками (Dask, xarray, zarr)

Я хочу сохранить файл xarray.dataset в виде файла.zarr, но я не могу настроить единообразные блоки и не сохранит их. Я пытался: изменяя размер чанка при использовании xarray.open_mfdataset -> он по-прежнему использует автоматические чанки, которые н…
08 май '19 в 02:11
1 ответ

Зарр многопоточное чтение групп

Не уверен, что этот вопрос имеет смысл / имеет отношение к zarr. Я храню данные Zarr на диске в группах, так, например, у меня есть group = zarr.group() d1 = group.create_dataset('baz', shape=100, chunks=10) d2 = group.create_dataset('foo', shape=10…
27 июн '19 в 00:24
0 ответов

Zarr сохранение нескольких файлов в общей файловой системе становится все медленнее, zarr или os проблема?

Я обрабатываю набор изображений в кластере с несколькими узлами. Каждое изображение обрабатывается в отдельном ядре.Во время обработки выходные данные сохраняются в словаре, который временно сохраняется в zarr.DictStore объект. В конце сценария дикт…
07 июн '19 в 17:58
1 ответ

Dask массив к zarr с неизвестными формами

Я пытаюсь сохранить массив dask в файле zarr. Мне удалось сделать это, когда массив dask имеет определенную форму. import dask import dask.array as da import numpy as np from tempfile import TemporaryDirectory import zarr np_array = np.random.randin…
23 июл '19 в 14:06
3 ответа

Как создать файл.mdb?

Я новичок в Zarr, HDF5 и LMDB. Я конвертировал данные из HDF5 в Zarr, но получил много файлов с расширением.n (n от 0 до 31). Я хочу иметь только один файл с расширением.zarr. Я пытался использовать LMDB (функция zarr.LMDBStore), но я не понимаю, ка…
21 июн '19 в 13:48
1 ответ

NoneZarr .consolidate_metadata выдает ошибку: объект 'memoryview' не имеет атрибута 'decode'

У меня есть существующий архив LMDB zarr (~6 ГБ), сохраненный в path, Теперь я хочу объединить метаданные для повышения производительности чтения. Вот мой сценарий: store = zarr.LMDBStore(path) root = zarr.open(store) zarr.consolidate_metadata(store…
05 июл '19 в 16:48
2 ответа

Добавление нового Xarray DataArray в существующее хранилище Zarr без перезаписи всего набора данных?

Как мне добавить новый DataArray существующему Datasetбез перезаписи всего? НовыйDataArrayимеет общие координаты с существующими, но также имеет новые. В моей текущей реализацииDataset полностью перезаписывается, а не просто добавляется новый матери…
21 сен '19 в 20:27
1 ответ

Показать все варианты

У меня есть файл ДНК vcf объемом 2 ГБ, и я пытаюсь использовать vcf_to_zarr(), чтобы распечатать все варианты со всеми фиксированными полями, но я получаю сообщение об ошибке KeyError: 'options / *' allel.vcf_to_zarr import allel import numcodecs im…
21 сен '19 в 14:33
0 ответов

Как вырубить / удалить массив zarr

У меня есть простой массив (скажем, длиной 1000) объектов в zarr. Я хочу заменить его уменьшенной версией, выбрав только подмножество элементов, как указано с использованием логического массива размером 1000. Я хочу, чтобы все остальное оставалось т…
07 ноя '19 в 12:46
2 ответа

Как записать большой массив dask (numpy.ndarray) в файл Zarr с использованием графических процессоров?

Я пытаюсь записать большой массив dask (46 ГБ с фрагментами 124 - 370 МБ) в файл zarr с помощью dask. Если бы мой массив dask был названdask_data, то простой dask_data.to_zarr("my_zarr.zarr")должно сработать. Но насколько я понимаю, это синхронный п…
07 фев '20 в 21:49
1 ответ

Я получаю ошибку TypeError при преобразовании файла .h5 (HDF5) в формат .zarr

Я пытаюсь преобразовать файл.h5 в формат.zarr, но получаю следующую ошибку TypeError: Object of type bytes_ is not JSON serializable Я публикую свой код ниже import h5py import zarr from sys import stdout source = h5py.File('file.h5', 'r') dest = za…
22 июл '20 в 13:08
1 ответ

Накладные расходы на выполнение цикла Dask из библиотек

При вызове другой библиотеки для dask, такой как scikit image Contrast stretch, я понимаю, что dask создает результат для каждого блока, сохраняя его либо в памяти, либо на диск отдельно. Затем он пытается объединить все результаты. Это нормально, е…
23 июл '20 в 10:09