The Hierarchical Data Format (HDF5) is a binary file format designed to store large amount of numerical data.
0 ответов

Хранение и поиск данных в Python

У меня довольно большие панды DataFrames и Panels хранятся на диске, некоторые к северу от 1 ГБ. В прошлом я использовал.to_pickle и.read_pickle, но обычно процесс сохранения и поиска составляет>2 минуты. Есть ли способ ускорить это? Я пробовал хран…
03 апр '17 в 16:06
0 ответов

Как читать gzipped hdf5 используя панд

Я обычно читаю мои hdf5 файлы с: pd.read_hdf('path/to/file.h5', 'some_key') Чтобы сэкономить место на диске, я планирую сжать некоторые старые файлы с помощью gzip. Как мне прочитать .h5.gz файл в панды HDFStore?
18 сен '17 в 17:07
0 ответов

Как я могу выполнить только несколько чтений одного и того же файла HDF?

У меня 80 ГБ файл HDF Я использую модуль h5py при доступе к файлу HDF. Мои требования: Я хочу выполнить многократное чтение этого файла. Я не выполняю никаких операций записи. Мои вопросы: Нужно ли устанавливать какие-либо дополнительные пакеты, так…
12 фев '18 в 05:28
1 ответ

pandas.HDFStore: как мне изменить "data_columns" для существующего хранилища? Я хотел бы добавить индекс для столбца не в столбцах данных

Я создал большой (120 ГБ; 1 миллиард строк) файл HDF5 с помощью панд. После первоначального создания файла hdf, я добавил в файл так: with pd.get_store(path_output) as hdf_output: for i in range(BIG_LOOP): df = ... hdf_output.append('all', df, data_…
01 авг '16 в 19:08
0 ответов

Как я могу создать файл HDF5 меньшего размера?

Я работаю над проблемой классификации изображений с набором данных из примерно 1 000 000 изображений с общим размером ~36 ГБ. Я пытаюсь обучить модель CNN с этими данными на машине с 256 ГБ ОЗУ (и 4 x 16 ГБ VRAM). Чтобы решить проблемы с памятью, с …
12 сен '18 в 11:04
1 ответ

Сохранение словаря Python в файл netCDF4

Я учусь использовать модуль Python для netCDF4 (и netCDF4 в целом). Используя формат файла HDF5, существует естественный способ перевода словарей Python в структуру данных HDF5 - используя атрибуты группы: parameters = {'a':1.0, 'b':2.0, 'c':3.0} f …
23 дек '15 в 11:30
1 ответ

"сделать проверку" не удается при установке HDF5

Я скачал hdf5-1.8.15-patch1.tar.bz2 и попытался установить его на свой Ubuntu, с помощью этой команды: CC=mpicc ./configure --enable-parallel --enable-shared make make check все же во время проверки я получил эту ошибку: ***** 1 FAILURE! ***** Comma…
15 июн '15 в 01:30
4 ответа

Что такое быстрый способ вывода набора данных h5py в текст?

Я использую пакет Python h5py для чтения файлов в формате HDF5. (например, somefile.h5) Я хотел бы записать содержимое набора данных в текстовый файл. Например, я хотел бы создать текстовый файл со следующим содержанием: 1,20,31,75,142,324,78,12,3,9…
11 июн '10 в 04:45
0 ответов

Как поместить мой набор данных в файл.pkl в точном формате и структуре данных, используемых в "mnist.pkl"?

Я пытаюсь сделать набор данных изображений в том же формате, что и mnist.pkl Я использовал https://github.com/dmitriy-serdyuk/cats_vs_dogs/blob/master/cats_vs_dogs/make_dataset.py качестве ссылки. Это то, что я имею до сих пор path = '/home/dell/the…
09 ноя '16 в 11:25
1 ответ

(C++) Написание базы данных в HDF5

Здравствуйте, это мой первый раз с HDF5, я пытаюсь создать таблицу базы данных, используя набор данных, созданный вручную. Файл уже создан и развернут, однако каждый раз, когда я пытаюсь вставить один реестр данных (каждый раз cv:: mat 1x6, так как …
16 мар '18 в 16:56
0 ответов

EOFError с numpy.load()

У меня проблема с загрузкой данных около 70 ГБ с помощью numpy.load('my_data.npy') в python2.7 Вот ошибка: my_data=np.load('my_data.npy') Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/home/.local/lib/pytho…
29 май '18 в 08:31
0 ответов

Наборы медленной записи HDF5 с fill_time_never

У меня проблема с наборами данных hdf5 с помощью H5D_FILL_TIME_NEVER в следующем коде. Он создает файл HDF5, содержащий наборы данных Matrix1 и Matrix2, оба с H5D_FILL_TIME_NEVER. Если я удаляю последний блок, записывающий в Matrix2, код выполняется…
19 окт '16 в 13:34
0 ответов

Объединение нескольких наборов данных с различными формами из разных файлов hdf5 в один файл hdf5

Я работаю с 2D медицинскими изображениями в Python, хранящихся в нескольких hdf5 файлы с различными формами (например, [30,99,761,761], [20,30,99,761,761] и..) и я хочу объединить их все в трехмерный массив в один файл hdf5 (с формой [n,761,761]). Н…
11 апр '18 в 07:54
1 ответ

Добавление дополнительных наборов данных в существующий файл Hdf5 без удаления других групп и наборов данных

У меня есть файл HDF5, который содержит группы и подгруппы, внутри которых есть наборы данных. Я хочу открыть файл и добавить несколько наборов данных в группы. Я выбрал следующий подход, который довольно прост в Python. import h5py f = h5py.File('f…
04 июл '16 в 14:13
1 ответ

HDF5 - запись / добавление составного типа данных HDF5 по одному с помощью Hyperslab?

Я пытаюсь записать свой составной тип данных один за другим в мой файл с помощью C++ API. Я использую HDF5-1.8.18 на Win64. Я хочу написать мои составные объекты типа данных один за другим. У меня есть несколько составных типов, и они не входят в "с…
04 май '17 в 10:36
1 ответ

Pandas read_hdf: как получить имена столбцов при использовании chunksize или итератора?

Я читаю в большой (~10 ГБ) hdf5 таблице с pandas.read_hdf. Я использую iterator=True, чтобы я мог получить доступ к чанкам за раз (например, chunksize=100000 строк за раз). Как получить список всех имен столбцов или "ключей"? Кроме того, почему нет …
28 дек '17 в 00:57
1 ответ

HDF5 как обрабатывать пустые строки

Я хочу передать некоторые значения, заданные датчиком MOCAP, в файл hdf5. Итак, чтобы упростить вещи, допустим, у меня есть таблица, подобная следующей: | time | x1 | y1 | x2 | y2 | | 0 | 2.0 | 1.0 | 2.0 | 3.0 | | 1 | 2.1 | 1.0 | 2.3 | 3.1 | | 2 | 2…
11 ноя '15 в 17:15
1 ответ

PyTables, прочитанные из большого CSV-кода:

У меня есть следующий код, который читает из CSV и пишет в PyTables. Однако pd.read_csv создает фрейм данных, и это не обрабатывается в PyTables. Как мне решить эту проблему? Я могу создавать массивы numpy, но это похоже на убийство и, возможно, отн…
05 янв '17 в 11:00
2 ответа

Является ли HDF5 подходящей технологией для хранения данных JSON?

Я унаследовал некоторый код, который выполняет вызовы веб-API и получает глубоко вложенный (до восьми уровней) ответ. Я написал некоторый код, чтобы сгладить структуру, чтобы ее можно было записывать в файлы.csv и базу данных SQL, чтобы людям было п…
10 фев '16 в 22:24
1 ответ

Valgrind не обнаруживает утечку HDF5 ресурсов

Я заметил, что Valgrind не обнаруживает ресурсы, созданные с помощью C API HDF5, и которые не закрываются до конца программы, хотя я запустил его с опцией --leak-check=full. Это нормально? Я часто полагаюсь на Valgrind перед отправкой кода, но сегод…
30 июл '18 в 16:40