Описание тега dask
Dask - это библиотека для параллельных вычислений и анализа данных для Python. Он поддерживает динамическое планирование задач, оптимизированное для вычислений, а также для сбора больших данных.
1
ответ
dask: как группировать, агрегировать без потери столбца, используемого для группировки
Как получить сгруппированный вывод в стиле SQL при группировке следующих данных: item frequency A 5 A 9 B 2 B 4 C 6 df.groupby(by = ["item"]).sum() Результаты в этом: item frequency A 14 B 6 C 6 В пандах это достигается установкой as_index=False, Но…
11 фев '18 в 14:42
3
ответа
Могу ли я использовать функции, импортированные из файлов.py в Dask/Distributed?
У меня есть вопрос о сериализации и импорте. должны ли функции иметь свой собственный импорт? как я видел, сделал с PySpark Это просто неправильно? Есть ли mod.py должен быть пакет conda/pip? mod.py был записан в общую файловую систему. In [1]: from…
02 сен '16 в 14:46
1
ответ
Ограничения к использованию LocalCluster? Сбой сохранения 50 ГБ данных в 90 ГБ памяти
Информация о системе: CentOS, python 3.5.2, 64 ядра, 96 ГБ ОЗУ Поэтому я пытаюсь загрузить большой массив (50 ГБ) из файла hdf в оперативную память (96 ГБ). Каждый блок примерно на 1,5 ГБ меньше, чем предел рабочей памяти. Кажется, это никогда не за…
13 ноя '18 в 17:06
0
ответов
Dask dataframe создает множество столбцов
Я хотел бы создать много столбцов в dask dataframe. Допустим, у меня есть фрейм данных с 2 столбцами, я хочу создать 40 000 столбцов, которые являются комбинациями 2 первых столбцов: column [i] = acolumn [1] + b column [2] Чтобы проверить это, я нач…
10 янв '18 в 09:03
1
ответ
dask.read_parquet вызывает ошибку OOM
Я использую Dask для очистки данных в нескольких файлах CSV. Этот код работает нормально: import pandas as pd import glob import os from timeit import default_timer from dask.distributed import Client import dask.dataframe as dd cols_to_keep = ["bar…
08 авг '18 в 15:01
1
ответ
Dask Scheduler Memory
Наш процесс планировщика dask кажется всплывающим в памяти с течением времени и продолжением выполнения. В настоящее время мы видим, что используется 5 ГБ памяти, что кажется высоким, поскольку все данные предположительно живут на рабочих узлах: PID…
24 авг '17 в 21:02
1
ответ
Dask dataframe не имеет атрибута _meta_nonempty при объединении больших CSV в Python
Я пробовал панд с: import pandas as pd df1 = pd.read_csv("csv1.csv") df2 = pd.read_csv("csv2.csv") my_keys = ["my_id", "my_subid"] joined_df = pd.merge(df1, df1, on=my_keys) joined_df.to_csv('out_df.csv', index=False) И получил ошибку памяти после н…
30 ноя '16 в 03:07
1
ответ
Непоследовательное поведение в случае, когда порядок столбцов отличается между мета и отдельными фреймами данных.
Я строю датафрейм из delayed объекты, которые возвращают отдельные (панды) кадры данных, и я предоставляю meta к from_delayed вызов. Случилось так, что порядок столбцов, возвращаемый отложенными объектами, не соответствовал указанному в meta, В этом…
18 апр '18 в 14:23
2
ответа
Операции с массивами на массивах dask
У меня есть два массива dask, то есть, а и б. Я получаю точечное произведение А и В, как показано ниже >>>z2 = da.from_array(a.dot(b),chunks=1) >>> z2 dask.array<from-ar..., shape=(3, 3), dtype=int32, chunksize=(1, 1)> Но, ко…
26 мар '16 в 08:52
0
ответов
Как можно объединить все разделы Dask Data-frame
Я хочу использовать Dask Dataframe, и я использовал Sales = dd.read_csv('Sales.txt',blocksize=500000, storage_options=dict(anon=True)) Product = dd.read_csv('Product.txt') для моих двух файлов, и я объединил две таблицы df = sales_location = Sales.m…
14 май '18 в 23:25
1
ответ
Dask: ошибка присваивания при обновлении значения в массиве dask с использованием типичной индексной последовательности
Я конвертирую код для использования массивов dask вместо массивов numpy. У меня установлена версия dask 0.19.4. У меня есть массив, который был заменен эквивалентным массивом DASK: # this used to be a numpy array, created like so: # da = np.zeros(…
22 окт '18 в 16:10
1
ответ
Изменить порядок операций, применяемых к сумке для сумок
Я использую сумку для сумок для распараллеливания обработки данных по следам, собранным в ходе ряда экспериментов. Пути к файлам данных для каждого эксперимента превращаются в пользовательские объекты, а обычные операции, которые я выполняю с данным…
11 янв '18 в 18:30
1
ответ
Запуск функции на фрагменте массива dask
Я пытался выяснить, как выполнять функции на кусках массива dask. Например, если я создаю следующий массив dask: import numpy as np import dask.array as da x = da.random.normal(10, 0.1, size=(200, 4),chunks=(100, 100)) и определите функцию: #test fu…
05 сен '18 в 17:49
1
ответ
Все задачи назначаются одному работнику при использовании Dask в адаптивном режиме.
При использовании Dask все нормально работает. Однако, когда я использую Dask с адаптивным кластером, я обнаруживаю, что иногда все задачи назначаются одному работнику. Почему это?
09 авг '18 в 23:02
0
ответов
Слишком много файлов при попытке прочитать в xarray с помощью dask
Я пытаюсь научиться работать с данными о 18-летнем наборе данных NetCDF, который содержит 1464 файла для каждого года и каждый файл размером 1 МБ. Вместо этого я могу сделать это в цикле, но я хочу протестировать встроенные функции dask с помощью xa…
17 окт '18 в 16:39
2
ответа
Dask.dataframe или альтернатива: масштабируемый способ отбрасывания строк низкочастотных элементов
Я ищу способ удалить строки из кадра данных, которые содержат низкочастотные элементы. Я адаптировал следующий фрагмент из этого поста: import pandas as pd import numpy as np df = pd.DataFrame(np.random.randint(0, high=9, size=(100,2)), columns = ['…
04 дек '18 в 03:17
1
ответ
Запись фрейма данных в CSV, где списки преобразуются в массивы JSON
Как будет выводиться список строк в виде массива JSON при записи кадра данных в CSV? Например ['foo', 'bar'] должно быть ["foo", "bar"] Фон Я копирую данные из базы данных PostgreSQL в AWS RDS в AWS Redshift. В качестве промежуточного шага данные до…
21 авг '18 в 11:21
1
ответ
Администрирование кластера Dask.distributed
Я настраиваю кластер Dask Python на работе (30 машин, в среднем по 8 ядер). Люди используют только часть мощности своего процессора, поэтому dask-workers будет работать на фоне с низким приоритетом. Все работники слушают dask-scheduler на моем главн…
11 янв '19 в 13:02
1
ответ
Dask-ssh с локальным планировщиком?
Я хотел бы использовать dask-ssh для автоматической загрузки рабочих узлов на набор удаленных IP-адресов. Однако я бы хотел, чтобы рабочие узлы подключались к локальному планировщику. Со страницы документации я не совсем знал, как этого добиться. Мо…
29 янв '19 в 16:52
1
ответ
Загрузка файлов hdf5 в Python Xarrays
Модуль Python xarray значительно поддерживает загрузку / отображение файлов netCDF, даже лениво с dask. Источником данных, с которым мне приходится работать, являются тысячи файлов hdf5 с большим количеством групп, наборов данных, атрибутов - все он…
11 фев '19 в 11:15