Описание тега dask-distributed

Dask.distributed - это легкая библиотека для распределенных вычислений на Python. Он расширяет API-интерфейсы concurrent.futures и dask до кластеров среднего размера.
1 ответ

Ограничения к использованию LocalCluster? Сбой сохранения 50 ГБ данных в 90 ГБ памяти

Информация о системе: CentOS, python 3.5.2, 64 ядра, 96 ГБ ОЗУ Поэтому я пытаюсь загрузить большой массив (50 ГБ) из файла hdf в оперативную память (96 ГБ). Каждый блок примерно на 1,5 ГБ меньше, чем предел рабочей памяти. Кажется, это никогда не за…
13 ноя '18 в 17:06
1 ответ

Dask Scheduler Memory

Наш процесс планировщика dask кажется всплывающим в памяти с течением времени и продолжением выполнения. В настоящее время мы видим, что используется 5 ГБ памяти, что кажется высоким, поскольку все данные предположительно живут на рабочих узлах: PID…
24 авг '17 в 21:02
0 ответов

Связь между dask.distributed и LSF кластером

Я использую платформу IBM LSF для параллельного запуска своего кода. На данный момент это влечет за собой "ручное" разбиение кода на массив заданий; вместо: for i in range(100): x[i] = f(i) Я раздаю f более 100 работников, а затем "вручную" собрать …
12 янв '18 в 12:49
1 ответ

Администрирование кластера Dask.distributed

Я настраиваю кластер Dask Python на работе (30 машин, в среднем по 8 ядер). Люди используют только часть мощности своего процессора, поэтому dask-workers будет работать на фоне с низким приоритетом. Все работники слушают dask-scheduler на моем главн…
11 янв '19 в 13:02
2 ответа

Загрузите один большой файл с клиента для рабочих.

Как сделать один большой файл объемом 8 ГБ доступным для всех других рабочих узлов в dask? я пытался pd.read_csv() с chunksize а также client.scatter но это занимает довольно много времени. Я запускаю его на macOS. Это мой код: import time import pa…
24 июл '18 в 13:12
1 ответ

Не удается запустить кластер DASK через SSH

Я пытаюсь запустить кластер dask через SSH, но я сталкиваюсь со странными ошибками, подобными этим: Exception in thread Thread-6: Traceback (most recent call last): File "/home/localuser/miniconda3/lib/python3.6/threading.py", line 916, in _bootstra…
08 ноя '18 в 12:39
0 ответов

Проверка существования переменной без использования v.get() в Dask Distributed Client

При использовании Dask Distributed Client я легко могу получить переменную, подобную этой: v = Variable('myvar') v.get(timeout=5) Но если я сделаю это на несуществующем ключе: v = Variable('doesntexist') v.get(timeout=5) Дает мне через 5 секунд: dis…
05 окт '17 в 09:25
1 ответ

Как справиться с работником, если у меня много много долгосрочных задач!

Предположим, у меня есть кластер dask с 4 узлами, в котором на узле-1 работает dask-scheduler, а на остальных узлах работает dask-worker. И я вместе представляю 5 долгосрочных задач. Итак, что происходит в этом случае, 3 задачи находятся в рабочем р…
25 янв '18 в 15:56
1 ответ

Анализ потока данных Dask

У меня есть набор данных, хранящийся в текстовом файле с разделителями табуляции. Файл выглядит следующим образом: date time temperature 2010-01-01 12:00:00 10.0000 ... где temperature столбец содержит значения в градусах Цельсия (°C). Я вычисляю ср…
12 окт '18 в 05:21
1 ответ

distrib.protocol.pickle - INFO - Не удалось сериализовать. Исключение: выбор объекта AuthenticationString запрещен по соображениям безопасности.

Код питона:: from dask.distributed import variable, Client from multiprocessing import Process, current_process def my_task(proc): print("process object::", proc) def doubler(number): # do stuff returns something proc = Process(target=doubler, args=…
1 ответ

Функция запуска на кластере с DASK

Я новичок в DASK и хотел бы проверить работу DASK в кластере. Кластер имеет головной сервер и несколько других узлов. Я могу войти в другие узлы простым ssh без пароля, как только я войду в главный сервер. Я хотел бы запустить простую функцию для пе…
1 ответ

Процесс узла с выделенной памятью в Python

Я разрабатываю с Apache и Django приложение для веб-приложений, в котором пользователи взаимодействуют с моделью данных (реализация C++, заключенная в Python). Чтобы избежать загрузки / сохранения данных в файл или базу данных после каждой пользоват…
24 июл '17 в 09:50
2 ответа

Как сделать пользовательский объект доступным для функции, переданной dask df.apply (не может сериализоваться)

Весь этот код работает в пандах, но однопоточный запуск выполняется медленно. У меня есть объект (это фильтр Блума), который медленно создается. У меня есть dask код, который выглядит примерно так: def has_match(row, my_filter): return my_filter.mat…
18 сен '18 в 17:50
0 ответов

Как лучше переназначить коллекцию файлов NetCDF в набор данных Zarr

Я пытаюсь переназначить коллекцию файлов NetCDF и создать набор данных Zarr на AWS S3. У меня есть 168 оригинальных классических файлов NetCDF4 с массивами измерений time: 1, y: 3840, x: 4608 порванный как chunks={'time':1, 'y':768, 'x':922}, Я хочу…
1 ответ

Отправление задач из пулов потоков в распределенной среде

Я просматривал документацию по порождению новых процессов из задачи, выполняемой на рабочем месте. Я наткнулся на это отсюда: Однако каждая запущенная задача занимает один поток, и поэтому, если вы запускаете много задач, которые запускают другие за…
27 июл '17 в 17:22
0 ответов

Не могу найти зависимости / Зависимая не найдена ошибка

Я пытаюсь запустить этот тест для небольшого кластера из двух узлов. Удаленный работник просто развертывается с dask-worker команда, и она правильно отображается в выводе client в бенчмарке. Я также пытался запустить несколько простых функций, таких…
28 май '18 в 09:59
0 ответов

После запуска кластера HPC Dask в одном файле ноутбука Jupyter, как использовать тот же кластер в другом файле ноутбука Jupyter

Поскольку код слишком длинный, я хотел бы использовать несколько файлов ipynb. После того как я начинаю Dask Cluseter следующим образом from dask_jobqueue import SLURMCluster from dask.distributed import Client cluster = SLURMCluster(processes=1, th…
11 июл '18 в 16:19
1 ответ

Наращивание памяти с помощью функции dask с большими промежуточными звеньями

У меня есть общий вопрос о dask.compute(), который вызван наращиванием памяти, которое я испытывал с этой функцией. Я использую dask.compute() и map_partitions() (пробовал с dask.distributed и dask.multiprocessing (позднее как с pool=ThreadPool и po…
1 ответ

Могу ли я.set_index() лениво (или выполняться одновременно) на Dask Dataframes?

ТЛ; др: Это возможно .set_index() метод на нескольких Dask Dataframes параллельно? Альтернативно, возможно ли .set_index() лениво на нескольких Dask Dataframes, что, следовательно, приведет к параллельному заданию индексов? Вот сценарий: У меня есть…
2 ответа

Dask: уникальный метод в группе Dataframe

Я хотел бы знать, возможно ли иметь количество уникальных элементов из данного столбца после объединения groupBy с Dask. Я не вижу ничего подобного в документации. Он доступен на датафрейме pandas и действительно полезен. Я видел некоторые проблемы,…
28 авг '17 в 15:51