Описание тега dask.distributed

0 ответов

Реализация рекурсивной функции с использованием dask.delayed

Как я могу успешно реализовать сортировку слиянием с помощью dask.delayed или с помощью другого API dask. Так что с параллелизмом это становится быстрее.
1 ответ

Еще один интерфейс для Dask, кроме боке

Нет ли другого Dask UI кроме боке? У меня проблема с боке, так как он не показывает график и пользовательский интерфейс при работе в экземпляре ec2.
2 ответа

Путаница в отношении кластерного планировщика и распределенного планировщика для одной машины

В приведенном ниже коде, почему dd.read_csv работает на кластере? client.read_csv должен работать на кластере. import dask.dataframe as dd from dask.distributed import Client client=Client('10.31.32.34:8786') dd.read_csv('file.csv',blocksize=10e7) d…
1 ответ

Заменить раздел dask

Могу ли я заменить раздел dask dataframe другим разделом dask dataframe, который я создал отдельно, с таким же количеством строк и такой же структурой? Если да, то как? Возможно ли это с другим количеством строк?
1 ответ

Шифрование на стороне сервера в функции to_csv

Я получаю эту ошибку при использовании to_csv("s3://mys3bucket/result.csv") Exception: [Errno Write Failed: mys3bucket/result.csv/2489.part] An error occurred (AccessDenied) when calling the PutObject operation: Access Denied Это могло быть вызвано …
1 ответ

AttributeError: у объекта 'DataFrame' нет атрибута '_example'

Я пытаюсь объединить несколько геоданных, используя пакет Python Dask. При реализации моего алгоритма обработки данных я столкнулся со следующим исключением: AttributeError: у объекта "DataFrame" нет атрибута "_example" Вот мой код: import dask.data…
0 ответов

Объединить кадр данных панд в порядке убывания

Существует опция для сортировки кадра данных Pandas в порядке возрастания с помощью pandas.DataFrame.merge(df1,df2,how='outer',sort=True), Как я могу объединить это в порядке убывания, прилагая минимальные усилия ?
1 ответ

Сортировка в Даске

Я хочу найти альтернативу функции pandas.dataframe.sort_value в dask. Я пришел через set_index, но он будет сортировать по одному столбцу. Как отсортировать несколько столбцов фрейма данных Dask?
12 июн '18 в 04:54
1 ответ

Использование памяти при индексации большого кадра данных dask на одном многоядерном компьютере

Я пытаюсь превратить дамп Wikipedia CirrusSearch в защищенный паркетом фрейм данных dask, проиндексированный по названию на 16-ядерном экземпляре GCP 450G. Дампы CirrusSearch представлены в виде единого файла в формате json. Английские дампы Wipedia…
0 ответов

Нужно реализовать dask.dataframe.sort_values

Я хочу реализовать dask.dataframe.sort_values ​​для нескольких столбцов. Ребята, скажите, пожалуйста, как я могу это сделать?
0 ответов

AttributeError: объект 'S3File' не имеет атрибута 'getvalue' при запуске to_csv

Я бегу to_csv Команда для вывода файла на s3 ведро с ServerSideEncryption включено: to_csv("s3://mys3bucket/result.csv", storage_option={'s3_additional_kwargs': {'ServerSideEncryption': 'AES256'}}) Я получаю следующую ошибку атрибута: File "/usr/lib…
0 ответов

Linux DASK-работник не может подключиться к Windows DASK-планировщик

Я начал dask-scheduler на окнах Теперь я пытаюсь бежать dask-worker <ip>:<port> в ec2. Я был брошен в следующую ошибку: distributed.nanny - INFO - Start Nanny at: 'tcp://10.34.33.12:36525' distributed.diskutils - INFO - Found stale lock …
0 ответов

Dask-SSH дает ошибку:: Нет доступного метода аутентификации

У меня 4 машины, М1, М2, М3, М4. Я запустил dask-планировщик, dask-client и dask-worker на машине M1 и dask-worker на каждой из машин M2, M3 и M4. Когда я пытаюсь использовать dask-ssh, я получаю ошибку dask-ssh, чья трассировка вызова изображена ка…
1 ответ

Распределение и вычисление dask.delayed объекта

Делать dask.delayed объекты распределены по кластеру? Кроме того, выполнение графа задач также распределено по кластеру?
1 ответ

Нужна ясность в копировании dask.dataframe

Может ли pandas.DataFrame.copy API быть точно имитирован в dask.DataFrame, используя следующий код? from copy import copy df2 = copy(df) Это простая копия или глубокая копия? Как я могу сделать другой тип копии? Или мне обязательно нужно сделать сле…
0 ответов

Как передать файлы, используя dask.distributed (lib для python)?

Есть такая задача. На одном компьютере много файлов. Я хотел бы обработать их в кластере. Обработка однотипная для всех файлов. И после того, как все файлы обработаны, переместите их обратно. Я новичок в этих вопросах. Как я могу применить библиотек…
05 июн '18 в 15:44
0 ответов

Bokeh UI не работает с DASK на другом хосте

Я пробовал боке на кластере с 4 машинами. Теперь я открыл страницу Dask Ui, ​​на:8787, Мы можем видеть графики и т.д. там нет Пустой интерфейс Но там есть обычный текст и простая графика. Я получаю эту ошибку в консоли. ошибка
0 ответов

В каком порядке распределяются задачи Выполненные задачи

Предполагая код, подобный этому def square(x): import time time.sleep(60) return x ** 2 def neg(x): import time time.sleep(60) return -x A = client.map(square, range(10)) B = client.map(neg, A) total = client.submit(sum, B) total.result() Как Dask р…
14 июн '18 в 10:49
1 ответ

Ошибка файла не найдена в программе Dask, запущенной на кластере

У меня есть 4 машины, M1, M2, M3 и M4. Планировщик, клиент, рабочий работает на M1. Я положил CSV-файл в M1. Остальные машины рабочие. Когда я запускаю программу с файлом read_csv в dask. Это дает мне ошибку, файл не найден
1 ответ

Планировщик `dask-kubernetes '- рабочий на AWS

Я пытался создать dask.distributed кластер с использованием kubernetes, Настройка kube Сам кластер довольно прост, проблема, с которой я сейчас борюсь, заключается в том, что я не могу подключить локальный планировщик к рабочим. Работники могут подк…