Описание тега dask-ml
0
ответов
Ошибка типа: нет отправки для <class 'xgboost.sklearn.XGBRegressor'>
Я использую пакет TPOT с Dask, и я сталкиваюсь с исключением при использовании удаленного кластера Dask Контекст проблемы Я создал кластер Dask в Google Cloud Container Engine в соответствии с документацией, http://docs.dask.org/en/latest/setup/kube…
11 янв '19 в 14:25
0
ответов
SpectralClustering ValueError: вход содержит NaN, бесконечность или слишком большое значение dtype('float64')
Я пытаюсь запустить алгоритм Dask SpectralClustering. Это дает мне следующую ошибку: ValueError: Входные данные содержат NaN, бесконечность или слишком большое значение dtype('float64') Код, который я запускаю это: data = pd.read_csv('2017-06_FXR_1.…
05 окт '18 в 21:37
0
ответов
Фитинг линейной регрессии висит на длительный период времени - Dask-ML
Мне интересно, сделал ли я что-то здесь не так, я не смог найти никакой документации, объясняющей, какие существуют предварительные условия для настройки линейной регрессии с использованием Dask ML. У меня есть датафрейм dask с именем Facts, def tra…
06 дек '18 в 18:26
0
ответов
Ошибка при назначении закодированных значений метки столбцу в кадре данных dask
Я сталкиваюсь с ошибкой в функциях кодирования меток. Чтобы сгенерировать мой случай (Первоначально я импортировал CSV-файл в dask dataframe и после очистки оставил 28 столбцов), я создал dask dataframe, как показано ниже: import dask import dask.…
15 ноя '18 в 11:03
0
ответов
Каково обоснование для линейной регрессии dask и как ее использовать?
Я играл с Dask и столкнулся с некоторыми проблемами. Предположим, что мои данные хранятся в DataFrame (в стиле pandas или dask), называемом data, и я пытаюсь согласовать модель data[yname] LinearRegression с данными [xname], где yname и xname - имен…
23 окт '18 в 03:22
0
ответов
`df.column.cat.categories` с неизвестными категориями не поддерживается при одном горячем преобразовании кодировщика
Я пытаюсь преобразовать свои категориальные функции в dask dataframe в один горячий кодировщик. Мой фрейм данных полностью посвящен категориальным особенностям: df.dtypes a category b category c category Length: 3, dtype: object Поэтому я подумал, ч…
26 фев '19 в 18:12
1
ответ
Как передать фрейм данных Dask в качестве входных данных для моделей dask-ml?
Обычные конвейеры ML включают обработку панелей данных или панелей данных dask в форму, которая может быть передана в модели ML. Однако многие модели dask-ml не могут принимать кадры данных Dask, поскольку они не отслеживают количество строк на разд…
01 окт '18 в 00:38
1
ответ
Почему мой код занимает так много времени, чтобы написать файл CSV в Dask Python
Ниже мой код Python: import dask.dataframe as dd VALUE2015 = dd.read_csv('A/SKD - M2M by Salesman (value by uom) (NEWSALES)2015-2016.csv', usecols = VALUEFY, dtype = traintypes1) REPORT = VALUE2015.groupby(index).agg({'JAN':'sum', 'FEB':'sum', 'MAR'…
17 янв '19 в 03:00
1
ответ
Как запустить PCA с помощью dask_ml. Я получаю сообщение об ошибке: "Эта функция (tsqr) поддерживает QR-декомпозицию в случае высоких и худых матриц"?
Я хочу уменьшить размерность данных, используя около 3000 строк и 6000 столбцов. Здесь количество наблюдений (n_samples) <количество объектов (n_columns). Я не могу достичь результата, используя dask-ml, тогда как то же самое возможно с помощью scik…
16 фев '19 в 15:45
0
ответов
Эквивалент scikit-learn's GroupShuffleSplit в dask-ml?
Я хотел бы разделить свои данные на наборы для тестирования и обучения, но я повторял наблюдения за людьми с течением времени, поэтому я хотел бы провести разделение таким образом, чтобы ни у одного из людей не было наблюдений, которые появляются ка…
18 ноя '18 в 02:56
1
ответ
Как создать фрейм данных dask из строки данных, разделенной символами табуляции и новой строки
Мои данные представлены в виде строки, разделенной символом \ (для столбцов) и символом новой строки \n для строк. ID\Product\quantity\n1\xx\2 Похоже, Dask.array.from_array() поддерживает только массив в качестве входных данных. Хотя я могу преобраз…
22 янв '19 в 03:25
0
ответов
Dask зависает при использовании метода поезда dask_xgboost
Я пытаюсь воспроизвести пример dask xgboost из документации dask-ml по адресу http://ml.dask.org/examples/xgboost.html. К сожалению, Dask, похоже, не завершил обучение, и мне трудно отследить значение ошибок и предупреждений. Вот мой код: def main()…
11 мар '19 в 19:30
0
ответов
GridsearchCV для набора данных 100000, имеющего 200 функций, дает сбой при использовании dask joblib
Я работаю над машинным обучением, Gridsearchcv, на кластере из двух систем, использующих DASK-ML. когда я работаю на 100000 примеров с 200 функциями, он зависает или не работает со следующим сообщением: tornado.application - ERROR - Exception in cal…
30 апр '19 в 12:20
0
ответов
Поддерживается ли функция sklearn learning_curve dask?
Я вычисляю кривые обучения из случайных лесов, используя sklearn. Мне нужно сделать это для большого количества различных радиочастот, поэтому я хочу использовать кластер и Dask, чтобы сократить время посадки радиочастот. В настоящее время я реализо…
02 май '19 в 13:25
1
ответ
train_test_split - Невозможно работать с массивом Dask с неизвестными размерами фрагментов
У меня есть набор данных для классификации текста, где я использовал паркет dask для экономии места на диске, но столкнулся с проблемой сейчас, когда я хочу разделить набор данных на поезд и протестировать, используя dask_ml.model_selection.train_te…
31 мар '19 в 15:36
0
ответов
Dask - прерывистое соединение торнадо сбрасывается
В длительных, интенсивных вычислительных тестах я сталкиваюсь с периодическими ошибками торнадо. В приведенном ниже примере кажется, что мои узлы в.223 и.198 потеряли свои потоки торнадо, что приводит к многочисленным зависимым не найденным ошибкам.…
13 июн '19 в 16:22
1
ответ
Как создать dask-массив из массива CuPy?
Я пытаюсь запустить dask.cluster.Kmeans с огромным количеством данных. Работа с процессором в порядке, так как я завернуть numpy массивы с dask.array, Работа с GPU не представляется возможной из-за не реализованных функций в cupy, Я попытался воспро…
26 июн '19 в 18:31
1
ответ
Как применить LabelEncoder к Dask DataFrame для кодирования категориальных значений
У меня есть Dask Data Frame, который состоит из категориальных данных и числовых (float и int) данных. Когда я пытаюсь LabelEncode категориальных столбцов, используя код ниже, я получаю сообщение об ошибке. from dask_ml.preprocessing import LabelEnc…
24 июл '19 в 18:17
0
ответов
Dask One Hot Encoder handle_unknown="игнорировать", обойти?
Я понимаю, что сейчас это не обрабатывается, но мешает мне иметь возможность кодировать функции в режиме реального времени (например, в реальном API-сервисе) против обученного OneHotEncoder / Pipeline. Как люди обходятся без необходимости кодировать…
22 авг '19 в 03:16
0
ответов
Есть ли подобные пакеты, такие как Pandas- MLEXTEND для Dask?
В пандах у нас есть пакет MLEXTEND для выполнения алгоритма Apriori, можем ли мы иметь что-то похожее для Python Dask?
21 июн '19 в 09:12