Описание тега pytables

Библиотека Python для работы с очень большими наборами иерархических (HDF5) данных.
1 ответ

pandas pytables append: производительность и увеличение размера файла

У меня больше 500 PyTables магазины, которые содержат около 300 МБ данных каждый. Я хотел бы объединить эти файлы в большой магазин, используя панд append как в коде ниже. def merge_hdfs(file_list, merged_store): for file in file_list: store = HDFSt…
08 апр '14 в 11:01
1 ответ

pandas.HDFStore: как мне изменить "data_columns" для существующего хранилища? Я хотел бы добавить индекс для столбца не в столбцах данных

Я создал большой (120 ГБ; 1 миллиард строк) файл HDF5 с помощью панд. После первоначального создания файла hdf, я добавил в файл так: with pd.get_store(path_output) as hdf_output: for i in range(BIG_LOOP): df = ... hdf_output.append('all', df, data_…
01 авг '16 в 19:08
1 ответ

Сложная итерация по PyTables

Если кто-то занимается Pytables, возможно, мог бы дать мне подсказку об этом сложном выражении, которое не работает: hdf5file = openFile("savedTable.h5", mode = 'r') tab = hdf5file.getNode("/Data") for i in xrange(1,10): result = [result + 1 for x i…
13 дек '13 в 10:57
1 ответ

Поиск с помощью HDF5

Я пытаюсь выполнить поиск больших данных с ограниченной памятью. Я использую HDF5 и Python. Я попробовал линейный поиск грубой силы (используя pytables) и поиск по дереву kd (используя sklearn) Удивительно, но метод kd-дерева занимает больше времени…
1 ответ

PyTables, прочитанные из большого CSV-кода:

У меня есть следующий код, который читает из CSV и пишет в PyTables. Однако pd.read_csv создает фрейм данных, и это не обрабатывается в PyTables. Как мне решить эту проблему? Я могу создавать массивы numpy, но это похоже на убийство и, возможно, отн…
05 янв '17 в 11:00
1 ответ

Python, PyTables - использование поиска в ядре

У меня есть файлы HDF5 с несколькими группами, где каждая группа содержит набор данных с>= 25 миллионами строк. На каждом временном шаге моделирования каждый агент выводит других агентов, которые он / она обнаружил на этом временном шаге. В сценарии…
1 ответ

Как получить отсортированные записи из таблицы hdf

Я ищу способ извлечь отсортированные записи из hdf Таблица. Вот питон MWE: import tables import numpy as np class Measurement(tables.IsDescription): time = tables.Float64Col() value = tables.Float64Col() h5 = tables.open_file('test.hdf', 'w') h5.cre…
24 окт '16 в 07:16
1 ответ

PyTables и HDF5: большие накладные расходы для данных дерева

У меня есть древовидная структура данных, которую я хочу сохранить на диск. Таким образом, HDF5 с его внутренней структурой дерева казался идеальным кандидатом. Тем не менее, пока данные огромны, в 100 раз! Тестовое дерево содержит примерно 100 узло…
28 фев '14 в 09:05
1 ответ

Использование dask для импорта множества файлов MAT в один DataFrame

У меня есть много файлов матов одного формата, и я хочу объединить эти файлы матов в один DataFrame с DatetimeIndex. В настоящее время цикл for считывает эти файлы матов и загружает содержимое каждого из них в DataFrames pandas, используя scipy.io.l…
09 июн '17 в 16:51
1 ответ

Проблемы с запросом многоиндексной таблицы в HDF при использовании data_columns

Я пытаюсь выполнить запрос к многоиндексной таблице в хранилище HDF pandas, но это не удается при одновременном использовании запроса по индексу и data_columns. Это происходит только тогда, когда data_columns=True, Любая идея, если это ожидается, ил…
15 окт '16 в 18:53
1 ответ

Сложный запрос в PyTables с использованием table.where

Как я могу сделать так: (если возможно) options = {'topLimit': 22.3, 'downLimit': 9} for row in tab.where('value < options['topLimit']'): #whatever ... ... Можем ли мы поставить что-то вроде options['topLimit'] или что-то подобное внутри where со…
05 мар '14 в 08:58
2 ответа

`pip install tables` завершается с ошибкой:: Не удалось найти локальную установку HDF5

Вот подробное сообщение об ошибке, которое я получаю, когда пытаюсь установить PyTables на Mac OSX. calvin$ pip install tables Downloading/unpacking tables Downloading tables-2.4.0.tar.gz (8.9MB): 8.9MB downloaded Running setup.py egg_info for packa…
25 окт '12 в 06:46
6 ответов

Pytables и CSV для файлов, которые не очень велики

Я недавно наткнулся на Pytables и считаю, что это очень круто. Понятно, что они превосходят формат CSV для очень больших наборов данных. Я запускаю некоторые симуляции с использованием Python. Вывод не такой большой, скажем, 200 столбцов и 2000 стро…
26 окт '10 в 10:42
1 ответ

Выбор компилятора Фортрана для MacPort

Я пытаюсь установить py-таблицы, используя macports. Я ранее установил hdf5 с Fortran. Где-то, кажется, что-то пошло не так. Когда я пытаюсь бежать: port install py-tables +fortran Я получаю ошибку: Ошибка: +fortran требует, чтобы был выбран компиля…
14 фев '14 в 18:14
0 ответов

Установка pytables: ССЫЛКА: фатальная ошибка LNK1181: не удается открыть входной файл 'Files.obj'

Привет всем Я устанавливаю Pytables в Windows с приглашением cmd.. Все предварительные условия, кажется, выполнены, однако путь к HDF5 был установлен. Пожалуйста, найдите команды ниже, включая коды ошибок. Любые идеи или помощь будет принята с благо…
21 окт '18 в 23:46
1 ответ

Проблемы с извлечением мультииндексного Pandas DataFrame из HDFStore (в формате таблицы)

У меня есть некоторый код, приведенный к приведенному ниже примеру, который берет некоторые необработанные данные, создает из них сводную таблицу, затем объединяет ее с другим фреймом данных и, наконец, сохраняет результаты в объекте HDFStore. Если …
22 апр '15 в 22:33
1 ответ

Проблемы с добавлением MultiIndex Pandas DataFrame в HDFStore PyTables

Я использую цикл for для списка, заполненного растрами. Из каждого растра я извлекаю массив данных и хочу использовать базовое имя (дату) растра в качестве индекса для этого массива. Для этого я использую мульти-индекс Pandas DataFrame. Массив, вклю…
25 июн '13 в 08:31
3 ответа

PyTables, работающие с данными, размер которых во много раз превышает размер памяти

Я пытаюсь понять, как PyTables управляет данными, размер которых больше размера памяти. Вот комментарий в коде PyTables ( ссылка на GitHub): # Nodes referenced by a variable are kept in `_aliveNodes`. # When they are no longer referenced, they move …
20 фев '13 в 15:44
0 ответов

Ошибка "HDF5dll.dll не найдена" при запуске Python Pytables

Я вижу, что мой вопрос был задан ранее (еще в 2012 году), и был дан ответ. Вот оригинальный вопрос: Pytables 2.3.1 с Python 2.5 в Windows: ошибка - не удалось найти локальную установку hdf5 В то время было предложено просто добавить команду "--HDF5\…
21 июн '15 в 12:23
1 ответ

Проверка на членство в списке с помощью Pytables, где метод

Я пытаюсь выбрать строки на основе нескольких критериев, которые не могут быть легко выражены с помощью условных операторов, которые [pytables allow] ( http://pytables.github.io/usersguide/condition_syntax.html). Я также не хочу форматировать действ…
07 авг '13 в 03:09