Dask - это библиотека для параллельных вычислений и анализа данных для Python. Он поддерживает динамическое планирование задач, оптимизированное для вычислений, а также для сбора больших данных.
1 ответ

dask: как группировать, агрегировать без потери столбца, используемого для группировки

Как получить сгруппированный вывод в стиле SQL при группировке следующих данных: item frequency A 5 A 9 B 2 B 4 C 6 df.groupby(by = ["item"]).sum() Результаты в этом: item frequency A 14 B 6 C 6 В пандах это достигается установкой as_index=False, Но…
11 фев '18 в 14:42
3 ответа

Могу ли я использовать функции, импортированные из файлов.py в Dask/Distributed?

У меня есть вопрос о сериализации и импорте. должны ли функции иметь свой собственный импорт? как я видел, сделал с PySpark Это просто неправильно? Есть ли mod.py должен быть пакет conda/pip? mod.py был записан в общую файловую систему. In [1]: from…
02 сен '16 в 14:46
1 ответ

Ограничения к использованию LocalCluster? Сбой сохранения 50 ГБ данных в 90 ГБ памяти

Информация о системе: CentOS, python 3.5.2, 64 ядра, 96 ГБ ОЗУ Поэтому я пытаюсь загрузить большой массив (50 ГБ) из файла hdf в оперативную память (96 ГБ). Каждый блок примерно на 1,5 ГБ меньше, чем предел рабочей памяти. Кажется, это никогда не за…
13 ноя '18 в 17:06
0 ответов

Dask dataframe создает множество столбцов

Я хотел бы создать много столбцов в dask dataframe. Допустим, у меня есть фрейм данных с 2 столбцами, я хочу создать 40 000 столбцов, которые являются комбинациями 2 первых столбцов: column [i] = acolumn [1] + b column [2] Чтобы проверить это, я нач…
10 янв '18 в 09:03
1 ответ

dask.read_parquet вызывает ошибку OOM

Я использую Dask для очистки данных в нескольких файлах CSV. Этот код работает нормально: import pandas as pd import glob import os from timeit import default_timer from dask.distributed import Client import dask.dataframe as dd cols_to_keep = ["bar…
08 авг '18 в 15:01
1 ответ

Dask Scheduler Memory

Наш процесс планировщика dask кажется всплывающим в памяти с течением времени и продолжением выполнения. В настоящее время мы видим, что используется 5 ГБ памяти, что кажется высоким, поскольку все данные предположительно живут на рабочих узлах: PID…
24 авг '17 в 21:02
1 ответ

Dask dataframe не имеет атрибута _meta_nonempty при объединении больших CSV в Python

Я пробовал панд с: import pandas as pd df1 = pd.read_csv("csv1.csv") df2 = pd.read_csv("csv2.csv") my_keys = ["my_id", "my_subid"] joined_df = pd.merge(df1, df1, on=my_keys) joined_df.to_csv('out_df.csv', index=False) И получил ошибку памяти после н…
30 ноя '16 в 03:07
1 ответ

Непоследовательное поведение в случае, когда порядок столбцов отличается между мета и отдельными фреймами данных.

Я строю датафрейм из delayed объекты, которые возвращают отдельные (панды) кадры данных, и я предоставляю meta к from_delayed вызов. Случилось так, что порядок столбцов, возвращаемый отложенными объектами, не соответствовал указанному в meta, В этом…
18 апр '18 в 14:23
2 ответа

Операции с массивами на массивах dask

У меня есть два массива dask, то есть, а и б. Я получаю точечное произведение А и В, как показано ниже >>>z2 = da.from_array(a.dot(b),chunks=1) >>> z2 dask.array<from-ar..., shape=(3, 3), dtype=int32, chunksize=(1, 1)> Но, ко…
26 мар '16 в 08:52
0 ответов

Как можно объединить все разделы Dask Data-frame

Я хочу использовать Dask Dataframe, и я использовал Sales = dd.read_csv('Sales.txt',blocksize=500000, storage_options=dict(anon=True)) Product = dd.read_csv('Product.txt') для моих двух файлов, и я объединил две таблицы df = sales_location = Sales.m…
14 май '18 в 23:25
1 ответ

Dask: ошибка присваивания при обновлении значения в массиве dask с использованием типичной индексной последовательности

Я конвертирую код для использования массивов dask вместо массивов numpy. У меня установлена ​​версия dask 0.19.4. У меня есть массив, который был заменен эквивалентным массивом DASK: # this used to be a numpy array, created like so: # da = np.zeros(…
22 окт '18 в 16:10
1 ответ

Изменить порядок операций, применяемых к сумке для сумок

Я использую сумку для сумок для распараллеливания обработки данных по следам, собранным в ходе ряда экспериментов. Пути к файлам данных для каждого эксперимента превращаются в пользовательские объекты, а обычные операции, которые я выполняю с данным…
11 янв '18 в 18:30
1 ответ

Запуск функции на фрагменте массива dask

Я пытался выяснить, как выполнять функции на кусках массива dask. Например, если я создаю следующий массив dask: import numpy as np import dask.array as da x = da.random.normal(10, 0.1, size=(200, 4),chunks=(100, 100)) и определите функцию: #test fu…
05 сен '18 в 17:49
1 ответ

Все задачи назначаются одному работнику при использовании Dask в адаптивном режиме.

При использовании Dask все нормально работает. Однако, когда я использую Dask с адаптивным кластером, я обнаруживаю, что иногда все задачи назначаются одному работнику. Почему это?
09 авг '18 в 23:02
0 ответов

Слишком много файлов при попытке прочитать в xarray с помощью dask

Я пытаюсь научиться работать с данными о 18-летнем наборе данных NetCDF, который содержит 1464 файла для каждого года и каждый файл размером 1 МБ. Вместо этого я могу сделать это в цикле, но я хочу протестировать встроенные функции dask с помощью xa…
17 окт '18 в 16:39
2 ответа

Dask.dataframe или альтернатива: масштабируемый способ отбрасывания строк низкочастотных элементов

Я ищу способ удалить строки из кадра данных, которые содержат низкочастотные элементы. Я адаптировал следующий фрагмент из этого поста: import pandas as pd import numpy as np df = pd.DataFrame(np.random.randint(0, high=9, size=(100,2)), columns = ['…
04 дек '18 в 03:17
1 ответ

Запись фрейма данных в CSV, где списки преобразуются в массивы JSON

Как будет выводиться список строк в виде массива JSON при записи кадра данных в CSV? Например ['foo', 'bar'] должно быть ["foo", "bar"] Фон Я копирую данные из базы данных PostgreSQL в AWS RDS в AWS Redshift. В качестве промежуточного шага данные до…
21 авг '18 в 11:21
1 ответ

Администрирование кластера Dask.distributed

Я настраиваю кластер Dask Python на работе (30 машин, в среднем по 8 ядер). Люди используют только часть мощности своего процессора, поэтому dask-workers будет работать на фоне с низким приоритетом. Все работники слушают dask-scheduler на моем главн…
11 янв '19 в 13:02
1 ответ

Dask-ssh с локальным планировщиком?

Я хотел бы использовать dask-ssh для автоматической загрузки рабочих узлов на набор удаленных IP-адресов. Однако я бы хотел, чтобы рабочие узлы подключались к локальному планировщику. Со страницы документации я не совсем знал, как этого добиться. Мо…
29 янв '19 в 16:52
1 ответ

Загрузка файлов hdf5 в Python Xarrays

Модуль Python xarray значительно поддерживает загрузку / отображение файлов netCDF, даже лениво с dask. Источником данных, с которым мне приходится работать, являются тысячи файлов hdf5 с большим количеством групп, наборов данных, атрибутов - все он…
11 фев '19 в 11:15