В R, есть ли способ интегрировать модель H2O ML в Sparklyr Pipeline?
То, что я вижу в официальных уроках, это использовать функцию as_h2o_frame
в rsparkling
преобразовать Spark
кадр данных в h2o
dataframe. Затем используйте h2o
датафрейм как обычно. Интересно, есть ли способ интегрировать h2o
алгоритмы (такие как h2o.randomforest
) с pipeline
в Spark
так, что я могу сделать что-то вроде этого:
pipeline <- ml_pipeline(sc) %>% ft_dplyr_transformer(tbl = dplyr_transformation) %>% h2o.randomForest(...)
fitted_pipeline <- ml_fit(pipeline,data)
cleaned_data <- ml_transform(fitted_pipeline,data)