Описание тега hdfstore
HDFStore is a Python interface that is part of the Pandas Data Analysis Library support for reading and writing HDF format files.
1
ответ
pandas.HDFStore: как мне изменить "data_columns" для существующего хранилища? Я хотел бы добавить индекс для столбца не в столбцах данных
Я создал большой (120 ГБ; 1 миллиард строк) файл HDF5 с помощью панд. После первоначального создания файла hdf, я добавил в файл так: with pd.get_store(path_output) as hdf_output: for i in range(BIG_LOOP): df = ... hdf_output.append('all', df, data_…
01 авг '16 в 19:08
1
ответ
Могу ли я обновить HDFStore?
Рассмотрим следующее hdfstore и кадры данных df а также df2 import pandas as pd store = pd.HDFStore('test.h5') midx = pd.MultiIndex.from_product([range(2), list('XYZ')], names=list('AB')) df = pd.DataFrame(dict(C=range(6)), midx) df C A B 0 X 0 Y 1 …
11 авг '17 в 18:26
1
ответ
Вставьте кадр данных панд как набор данных в HDFStore
Я столкнулся с проблемой метода HDFStore панд, где я не могу получить доступ к данным способом, который я использую для извлечения, используя метод h5py.File. Вот фрагмент кода: In [1]: import pandas as pd In [2]: import numpy as np In [3]: import h…
11 мар '17 в 19:10
1
ответ
Проблемы с добавлением MultiIndex Pandas DataFrame в HDFStore PyTables
Я использую цикл for для списка, заполненного растрами. Из каждого растра я извлекаю массив данных и хочу использовать базовое имя (дату) растра в качестве индекса для этого массива. Для этого я использую мульти-индекс Pandas DataFrame. Массив, вклю…
25 июн '13 в 08:31
0
ответов
Python HDFstore дополняет фрейм данных отсутствующим столбцом
Скажем, у меня уже есть hdfstore, имеющий 3 столбца [a,b,c], чей тип dtype [uint32,int64,datetime64[ns]] Проблема в том, как добавить фрейм данных с отсутствующим столбцом. Скажем, отсутствует столбец "c", я пытаюсь добавить только [a,b], я не могу …
18 июн '15 в 09:17
1
ответ
Pandas HDFStore с мультииндексом Выбор по значению индекса не находит столбец
У меня большой Pandas Dataframe хранится в файле HDF5. Dataframe является многоиндексным с Datetime и PatientID. store = pd.HDFStore('prepro_mon.h5',mode='r') print(store.get_storer('raw_import').levels) Out: ['Datetime', 'PatientID'] Но фильтрация …
05 янв '17 в 10:24
0
ответов
pandas.HDFStore.append_to_multiple with pandas.MultiIndex
Я пишу DataFrame в две таблицы, используя pandas.HDFStore.append_to_multiple а затем прочитать его обратно с pandas.HDFStore.select_as_multiple, но я получаю DataFrame с дополнительными строками. df = pd.DataFrame(dict(a=[1,1,1,1,1,2,2,2,2,2], b=[4,…
01 июл '16 в 19:17
2
ответа
Добавить новые столбцы в HDFStore с пандами
Я использую Pandas и создаю объект HDFStore. Я вычисляю 500 столбцов данных и записываю их в табличный формат объекта HDFStore. Затем я закрываю файл, удаляю данные из памяти, делаю следующие 500 столбцов (помеченных увеличивающимся целым числом), о…
11 апр '13 в 02:14
1
ответ
Pandas HDFStore: разница между использованием функции выбора и прямого доступа
Учитывая панды HDFStore, содержащий DataFrame: import pandas as pd import numpy.random as rd df = pd.DataFrame(rd.randn(int(1000)).reshape(500, 2), columns=list('ab')) store = pd.HDFStore('store.h5') store.append('df', df, data_columns=['a', 'b']) Я…
22 фев '17 в 12:35
0
ответов
Детали сжатия для формата HDF5 через панд
Являются ли следующие объекты (или значения внутри этих объектов: store['obj1_col'] а также store['obj1']) будет храниться в памяти только один раз после сжатия? Как это вообще проверить? frame = pd.DataFrame({'a': np.random.randn(100)}) store = pd.…
25 дек '18 в 16:38
2
ответа
Anaconda3 libhdf5.so.9: невозможно открыть общий объектный файл [отлично работает на py2.7, но не на py3.4]
Я просто пытался использовать pd.HDFStore в записной книжке IPython с ядром Python 3 (Anaconda 2&3 в Ubuntu 14.04) import pandas as pd store = pd.HDFStore('/home/Jian/Downloads/test.h5') но выдает следующую ошибку ImportError: HDFStore requires PyTa…
25 июл '15 в 18:11
1
ответ
Как найти файловые группы / ключи HDF5 в Python?
Допустим, кто-то дал мне случайный документ HDF5. Я хотел бы написать функцию, которая проверяет, какие группы /"ключи" используются. Возьмите панд HDFStore(), Для многих методов, которые получают данные HDF5, требуется знать ключ, например, pandas.…
23 окт '16 в 22:26
0
ответов
Руководство по эффективному использованию HDFStore
В моем приложении для обработки данных у меня около 80% времени обработки просто потрачено на функцию pandas.HDFStore.put, Несмотря на то, что существуют разные вопросы о подобных проблемах, я не нашел определенного руководства по использованию HDFS…
31 дек '18 в 12:09
1
ответ
Использование Hadoop для хранения тиковых данных фондового рынка
Я получаю удовольствие, узнавая о Hadoop и различных проектах вокруг него, и в настоящее время у меня есть 2 разные стратегии, о которых я думаю для построения системы для хранения большой коллекции рыночных тиковых данных. Я только начинаю работать…
23 сен '14 в 00:08
1
ответ
Вернуть значения nan после сохранения в HDFStore
Я храню большой набор данных с большим количеством NaN значения в HDFStore используя следующий код с python/pandas: with get_store(work_path+'/stores/store.h5') as store: for chunk in reader: for column in column_list: store.append('%s' % column, ch…
19 сен '14 в 14:03
2
ответа
Получить список содержимого HDF5 (Pandas HDFStore)
У меня нет проблем с выбором контента из таблицы в магазине HDF5: with pandas.HDFStore(data_store) as hdf: df_reader = hdf.select('my_table_id', chunksize=10000) Как я могу получить список всех таблиц для выбора с помощью панд?
27 фев '15 в 16:51
1
ответ
Pandas HDFStore: сохранение и получение серии с индексом иерархического периода
Сначала я создаю серию с двумерным иерархическим индексом. Тип индекса для них (pandas.period, numpy.int32) In [265]: import pandas as pd In [266]: import numpy as np In [267]: hdf_file = r'F:\test.h5' In [268]: data = np.random.randint(10, size=(7,…
10 окт '15 в 04:14
2
ответа
Как уменьшить размер служебной информации HDFStore?
Я экспериментирую с различными схемами хранения данных для тиков. До сих пор самым быстрым (с точки зрения чтения и записи) было использование хранилища HDFS с blosc-сжатием и "фиксированным" форматом. store = pd.HDFStore(path, complevel=9, complib=…
07 фев '14 в 18:33
0
ответов
Правильный способ получить среднее значение, опишите значения из большого набора данных в пандах
Я получаю "массив слишком большой" для hdf_read, что может означать, что мне нужно перебрать файл и вычислить результаты в виде кусков, прежде чем объединить их вместе; Мне было интересно, если есть автоматизированный способ сделать это? Или, может …
25 сен '14 в 17:29
1
ответ
Получение диапазона дат из магазина Pandas HDF5Store
Я хочу выбрать диапазон дат из моего HDFStore с помощью Pandas. Я заметил, что мои datetime (частота в миллисекундах) хранятся как время Unix с дополнительными нулями с добавлением справа, то есть 1514797200002000000. Я подозреваю, что мое предложен…
10 авг '18 в 01:32