Как сделать Крест валидацию в спаркре
Я работаю с набором данных объектива фильма, у меня есть матрица (m X n) идентификатора пользователя в виде столбца и идентификатор фильма в виде столбцов, и я применил метод уменьшения размеров и факторизации матрицы для уменьшения разреженной матрицы (m X k, где k < н). Я хочу оценить производительность, используя алгоритм k-ближайшего соседа (не библиотека, мой собственный код). Я использую sparkR 1.6.2. Я не знаю, как разбить мой набор данных на тренировочные данные и тестовые данные в sparkR. Я пробовал встроенную функцию R (выборка, подмножество,CARET), но она не совместима с кадром искровых данных. пожалуйста, дайте несколько советов для выполнения перекрестной проверки и обучения классификатора, используя мою собственную функцию, написанную в sparkR
1 ответ
Пакет sparklyr ( https://spark.rstudio.com/) обеспечивает простую функциональность для разделения данных. Например, если у нас есть фрейм данных с именем df
в Spark мы могли бы создать его копию с compute()
затем разделите его sdf_partition()
,
df_part <- df %>%
compute("df_part") %>%
sdf_partition(test = 0.2, train = 0.8, seed = 2017)
df_part
Тогда будет соединение с Spark DataFrame. Мы могли бы использовать collect()
скопировать Spark DataFrame в R-фрейм данных.