Описание тега zarr
Zarr - это пакет Python, обеспечивающий реализацию сжатых, разбитых на части, N-мерных массивов, предназначенных для использования в параллельных вычислениях.
0
ответов
Как лучше переназначить коллекцию файлов NetCDF в набор данных Zarr
Я пытаюсь переназначить коллекцию файлов NetCDF и создать набор данных Zarr на AWS S3. У меня есть 168 оригинальных классических файлов NetCDF4 с массивами измерений time: 1, y: 3840, x: 4608 порванный как chunks={'time':1, 'y':768, 'x':922}, Я хочу…
20 апр '18 в 03:09
3
ответа
Доступ к одному куску в Зарре
Zarr сохраняет массив на диске в виде фрагментов, каждый фрагмент представляет собой отдельный файл. Есть ли способ получить доступ только к одному выбранному чанку (файлу)? Можно ли определить, какие чанки пусты без загрузки всего массива в память?
25 фев '19 в 08:15
1
ответ
Круглые данные Zarr от Xarray
С xarray, Я использую ds.to_zarr() записать набор данных в S3, а затем xr.open_zarr() чтобы увидеть, получу ли я тот же набор данных обратно. Мой набор данных в xarray похоже: <xarray.Dataset> Dimensions: (nv: 2, reference_time: 11, time: 11, …
10 апр '18 в 15:01
0
ответов
Несколько компрессоров для одного массива
Можно ли иметь разные компрессоры, например, с потерями и без потерь для отдельных блоков? В сценарии, где у вас есть маска важности, где вы хотите сохранить сигнал со сжатием без потерь или даже без сжатия, но имеете другие части сигнала со сжатием…
19 ноя '18 в 22:58
1
ответ
Что произойдет, если в случае одновременного доступа для чтения / записи?
В учебнике zarr написано: Массивы Zarr не предназначены для ситуаций, когда несколько читателей и писателей одновременно работают с одним и тем же массивом. Что произойдет, если это произойдет? Это потерпит крах? Неопределенное поведение? Это будет …
10 янв '19 в 11:19
2
ответа
Что такое интеллектуальный способ полной загрузки сжатого массива с диска в память - также (по сути) сжатого?
Я экспериментирую с трехмерным zarr-массивом, хранящимся на диске: Name: /data Type: zarr.core.Array Data type: int16 Shape: (102174, 1100, 900) Chunk shape: (12, 220, 180) Order: C Read-only: True Compressor: Blosc(cname='zstd', clevel=3, shuffle=B…
31 мар '19 в 17:24
1
ответ
Как мне кодировать значения NaN в numcodecs.Quantize с помощью astype='u2'?
У меня есть большой массив данных xarray, содержащий NaN, и я хочу сохранить его с помощью zarr. Я хочу минимизировать размер файла, и я согласен с потерей нескольких битов точности - 16 бит должны быть в порядке. Я пытался с помощью FixedScaleOffse…
04 апр '19 в 09:44
1
ответ
Сколько файлов генерирует zarr?
Я ищу поточно-ориентированную альтернативу hdf5 для чтения в многопроцессорной среде и наткнулся на zarr, который, согласно бенчмаркам, в основном заменяет h5py в среде python. Я попробовал это, и пока все выглядит хорошо, но я не могу обернуть голо…
12 апр '19 в 17:34
1
ответ
Проблемы с кусками (Dask, xarray, zarr)
Я хочу сохранить файл xarray.dataset в виде файла.zarr, но я не могу настроить единообразные блоки и не сохранит их. Я пытался: изменяя размер чанка при использовании xarray.open_mfdataset -> он по-прежнему использует автоматические чанки, которые н…
08 май '19 в 02:11
1
ответ
Зарр многопоточное чтение групп
Не уверен, что этот вопрос имеет смысл / имеет отношение к zarr. Я храню данные Zarr на диске в группах, так, например, у меня есть group = zarr.group() d1 = group.create_dataset('baz', shape=100, chunks=10) d2 = group.create_dataset('foo', shape=10…
27 июн '19 в 00:24
0
ответов
Zarr сохранение нескольких файлов в общей файловой системе становится все медленнее, zarr или os проблема?
Я обрабатываю набор изображений в кластере с несколькими узлами. Каждое изображение обрабатывается в отдельном ядре.Во время обработки выходные данные сохраняются в словаре, который временно сохраняется в zarr.DictStore объект. В конце сценария дикт…
07 июн '19 в 17:58
1
ответ
Dask массив к zarr с неизвестными формами
Я пытаюсь сохранить массив dask в файле zarr. Мне удалось сделать это, когда массив dask имеет определенную форму. import dask import dask.array as da import numpy as np from tempfile import TemporaryDirectory import zarr np_array = np.random.randin…
23 июл '19 в 14:06
3
ответа
Как создать файл.mdb?
Я новичок в Zarr, HDF5 и LMDB. Я конвертировал данные из HDF5 в Zarr, но получил много файлов с расширением.n (n от 0 до 31). Я хочу иметь только один файл с расширением.zarr. Я пытался использовать LMDB (функция zarr.LMDBStore), но я не понимаю, ка…
21 июн '19 в 13:48
1
ответ
NoneZarr .consolidate_metadata выдает ошибку: объект 'memoryview' не имеет атрибута 'decode'
У меня есть существующий архив LMDB zarr (~6 ГБ), сохраненный в path, Теперь я хочу объединить метаданные для повышения производительности чтения. Вот мой сценарий: store = zarr.LMDBStore(path) root = zarr.open(store) zarr.consolidate_metadata(store…
05 июл '19 в 16:48
2
ответа
Добавление нового Xarray DataArray в существующее хранилище Zarr без перезаписи всего набора данных?
Как мне добавить новый DataArray существующему Datasetбез перезаписи всего? НовыйDataArrayимеет общие координаты с существующими, но также имеет новые. В моей текущей реализацииDataset полностью перезаписывается, а не просто добавляется новый матери…
21 сен '19 в 20:27
1
ответ
Показать все варианты
У меня есть файл ДНК vcf объемом 2 ГБ, и я пытаюсь использовать vcf_to_zarr(), чтобы распечатать все варианты со всеми фиксированными полями, но я получаю сообщение об ошибке KeyError: 'options / *' allel.vcf_to_zarr import allel import numcodecs im…
21 сен '19 в 14:33
0
ответов
Как вырубить / удалить массив zarr
У меня есть простой массив (скажем, длиной 1000) объектов в zarr. Я хочу заменить его уменьшенной версией, выбрав только подмножество элементов, как указано с использованием логического массива размером 1000. Я хочу, чтобы все остальное оставалось т…
07 ноя '19 в 12:46
2
ответа
Как записать большой массив dask (numpy.ndarray) в файл Zarr с использованием графических процессоров?
Я пытаюсь записать большой массив dask (46 ГБ с фрагментами 124 - 370 МБ) в файл zarr с помощью dask. Если бы мой массив dask был названdask_data, то простой dask_data.to_zarr("my_zarr.zarr")должно сработать. Но насколько я понимаю, это синхронный п…
07 фев '20 в 21:49
1
ответ
Я получаю ошибку TypeError при преобразовании файла .h5 (HDF5) в формат .zarr
Я пытаюсь преобразовать файл.h5 в формат.zarr, но получаю следующую ошибку TypeError: Object of type bytes_ is not JSON serializable Я публикую свой код ниже import h5py import zarr from sys import stdout source = h5py.File('file.h5', 'r') dest = za…
22 июл '20 в 13:08
1
ответ
Накладные расходы на выполнение цикла Dask из библиотек
При вызове другой библиотеки для dask, такой как scikit image Contrast stretch, я понимаю, что dask создает результат для каждого блока, сохраняя его либо в памяти, либо на диск отдельно. Затем он пытается объединить все результаты. Это нормально, е…
23 июл '20 в 10:09