Sparklyr: принудительное распределение для использования таких функций, как n_distinct, match
У меня есть датафрейм Spark, и я использую sparklyr. Я хочу использовать такие функции, как n_distinct
(доступно на dplyr) и match
(например, чтобы найти индекс элемента e столбца x в столбце y). Теперь я понимаю, что это не совсем соответствует идее параллельных вычислений, потому что, если различные части кадра данных обрабатываются отдельно, трудно использовать такие функции, как n_distinct и match.
Но у меня есть переменная под названием group
который определяет группы, и это только внутри этих групп, которые я хочу использовать n_distinct
а также match
; поэтому, если бы я мог найти способ рассказать Spark, как распределить различные строки по разным кластерам (это правильное слово?) и использовать функции внутри групп, это могло бы сработать.
Можно ли сделать такую вещь?
Спасибо вам за помощь!