Фитинг линейной регрессии висит на длительный период времени - Dask-ML

Мне интересно, сделал ли я что-то здесь не так, я не смог найти никакой документации, объясняющей, какие существуют предварительные условия для настройки линейной регрессии с использованием Dask ML.

У меня есть датафрейм dask с именем Facts,

def train_model(facts, features_cols, target):
"""
Train linear regression model from fact table
 Parameters
---------
facts: Dask Dataframe 
    Set of data to be used for features and target
feature_cols: Array<column_names>
    Array of column names to be loaded as features
target: string<column_name>
    Name of column to be used as target

Returns
-------
model: Linear Regresssion
    Linear Regression model trained on features

"""
features = facts[features_cols].values
target = facts[[target]].values
model = LinearRegression()
model.fit(features, target)
return model

Если я позвоню вычислить на функции и цели и использовать LinearRegression из sklearn вычисляется в ожидаемое время. В Dask ML создается впечатление, что в память загружен абсурдно большой объем данных (на порядок больше, чем сумма всех используемых данных). Я абсолютный нуби с этим, так что я чего-то упускаю? Нужно ли вычислять значения перед отправкой их в линейную регрессию?

0 ответов

Другие вопросы по тегам