Как сделать Крест валидацию в спаркре

Я работаю с набором данных объектива фильма, у меня есть матрица (m X n) идентификатора пользователя в виде столбца и идентификатор фильма в виде столбцов, и я применил метод уменьшения размеров и факторизации матрицы для уменьшения разреженной матрицы (m X k, где k < н). Я хочу оценить производительность, используя алгоритм k-ближайшего соседа (не библиотека, мой собственный код). Я использую sparkR 1.6.2. Я не знаю, как разбить мой набор данных на тренировочные данные и тестовые данные в sparkR. Я пробовал встроенную функцию R (выборка, подмножество,CARET), но она не совместима с кадром искровых данных. пожалуйста, дайте несколько советов для выполнения перекрестной проверки и обучения классификатора, используя мою собственную функцию, написанную в sparkR

1 ответ

Пакет sparklyr ( https://spark.rstudio.com/) обеспечивает простую функциональность для разделения данных. Например, если у нас есть фрейм данных с именем df в Spark мы могли бы создать его копию с compute() затем разделите его sdf_partition(),

df_part <- df %>%
  compute("df_part") %>%
  sdf_partition(test = 0.2, train = 0.8, seed = 2017)

df_part Тогда будет соединение с Spark DataFrame. Мы могли бы использовать collect() скопировать Spark DataFrame в R-фрейм данных.

Другие вопросы по тегам