Описание тега dask-kubernetes

Вопросы по использованию dask-kubernetes для создания и запуска распределенных кластеров dask
0 ответов

Реализация рекурсивной функции с использованием dask.delayed

Как я могу успешно реализовать сортировку слиянием с помощью dask.delayed или с помощью другого API dask. Так что с параллелизмом это становится быстрее.
1 ответ

Еще один интерфейс для Dask, кроме боке

Нет ли другого Dask UI кроме боке? У меня проблема с боке, так как он не показывает график и пользовательский интерфейс при работе в экземпляре ec2.
2 ответа

Путаница в отношении кластерного планировщика и распределенного планировщика для одной машины

В приведенном ниже коде, почему dd.read_csv работает на кластере? client.read_csv должен работать на кластере. import dask.dataframe as dd from dask.distributed import Client client=Client('10.31.32.34:8786') dd.read_csv('file.csv',blocksize=10e7) d…
1 ответ

Заменить раздел dask

Могу ли я заменить раздел dask dataframe другим разделом dask dataframe, который я создал отдельно, с таким же количеством строк и такой же структурой? Если да, то как? Возможно ли это с другим количеством строк?
1 ответ

Шифрование на стороне сервера в функции to_csv

Я получаю эту ошибку при использовании to_csv("s3://mys3bucket/result.csv") Exception: [Errno Write Failed: mys3bucket/result.csv/2489.part] An error occurred (AccessDenied) when calling the PutObject operation: Access Denied Это могло быть вызвано …
0 ответов

Вывод метаданных не выполнен

Я делаю модуль более высокой абстракции, названный edask выше dask, который взаимодействует как API pandas и использует API dask для внутреннего использования. У меня проблема с анализом этой строки кода: pts = task[(task.task_date <= dtm.Time.il…
0 ответов

Невозможно заменить раздел серии Dask

Я пытаюсь заменить раздел серии dask своим собственным разделом. Я использовал фрагмент кода, данный MRocklin в этом посте. list_of_delayed = dask_df.to_delayed() new_partition = dask.delayed(pd.read_csv)(filename) list_of_delayed[i] = new_partition…
0 ответов

Объединить кадр данных панд в порядке убывания

Существует опция для сортировки кадра данных Pandas в порядке возрастания с помощью pandas.DataFrame.merge(df1,df2,how='outer',sort=True), Как я могу объединить это в порядке убывания, прилагая минимальные усилия ?
0 ответов

Мета для отдельного элемента серии

Я использую output = dask.delayed(somefunction)(some_params) some_params состоит из серии. somefunction таков, что возвращает один элемент серии. Dask дает мне ошибку, что он не может вывести метаданные. Итак, какие метаданные я должен передать в ме…
0 ответов

Нужно реализовать dask.dataframe.sort_values

Я хочу реализовать dask.dataframe.sort_values ​​для нескольких столбцов. Ребята, скажите, пожалуйста, как я могу это сделать?
0 ответов

AttributeError: объект 'S3File' не имеет атрибута 'getvalue' при запуске to_csv

Я бегу to_csv Команда для вывода файла на s3 ведро с ServerSideEncryption включено: to_csv("s3://mys3bucket/result.csv", storage_option={'s3_additional_kwargs': {'ServerSideEncryption': 'AES256'}}) Я получаю следующую ошибку атрибута: File "/usr/lib…
0 ответов

Linux DASK-работник не может подключиться к Windows DASK-планировщик

Я начал dask-scheduler на окнах Теперь я пытаюсь бежать dask-worker <ip>:<port> в ec2. Я был брошен в следующую ошибку: distributed.nanny - INFO - Start Nanny at: 'tcp://10.34.33.12:36525' distributed.diskutils - INFO - Found stale lock …
1 ответ

Используйте уже проделанные вычисления с умом

Если у меня есть dask dataframe df. Теперь я применяю некоторые вычисления на нем. Математически, df1 = f1 (df) df2 = f2 (df1) df3 = f3 (df1) Теперь, если я бегу, df2.compute()теперь, после этого, если я бегу df1.compute(), Как я могу остановить das…
1 ответ

Jupyter Hub в Dask с использованием внутреннего LoadBalancer

Я хотел бы спросить вас, есть ли у кого-нибудь опыт настройки Jupyterhub в DASK с помощью внутреннего балансировщика нагрузки? Настройка по умолчанию поставляется с External Предпочтительно, если балансировщик нагрузки Jupyter Hub будет привязан к о…
12 дек '18 в 16:02
0 ответов

Dask-SSH дает ошибку:: Нет доступного метода аутентификации

У меня 4 машины, М1, М2, М3, М4. Я запустил dask-планировщик, dask-client и dask-worker на машине M1 и dask-worker на каждой из машин M2, M3 и M4. Когда я пытаюсь использовать dask-ssh, я получаю ошибку dask-ssh, чья трассировка вызова изображена ка…
1 ответ

Распределение и вычисление dask.delayed объекта

Делать dask.delayed объекты распределены по кластеру? Кроме того, выполнение графа задач также распределено по кластеру?
1 ответ

Нужна ясность в копировании dask.dataframe

Может ли pandas.DataFrame.copy API быть точно имитирован в dask.DataFrame, используя следующий код? from copy import copy df2 = copy(df) Это простая копия или глубокая копия? Как я могу сделать другой тип копии? Или мне обязательно нужно сделать сле…
1 ответ

Как заставить адаптивных рабочих, выполняющих задачи, запускать некоторый код при запуске?

Я создаю планировщик dask с использованием dask-kubernetes и переводю его в адаптивный режим. from dask-kubernetes import KubeCluster cluster = KubeCluster() cluster.adapt(minimum=0, maximum=40) Мне нужно, чтобы каждый работник запускал некоторый ус…
01 авг '18 в 11:04
1 ответ

Планировщик `dask-kubernetes '- рабочий на AWS

Я пытался создать dask.distributed кластер с использованием kubernetes, Настройка kube Сам кластер довольно прост, проблема, с которой я сейчас борюсь, заключается в том, что я не могу подключить локальный планировщик к рабочим. Работники могут подк…
2 ответа

Рабочие не могут десериализовать с растерио

После развертывания в Google Cloud на официальной диаграмме Dask Helm я обновил среду с помощью некоторых дополнительных пакетов conda, в частности, xarray и rasterio. Если я пытаюсь запустить свой код, я получаю эту ошибку из журнала рабочих процес…
30 июл '19 в 14:04