Sparklyr: принудительное распределение для использования таких функций, как n_distinct, match

У меня есть датафрейм Spark, и я использую sparklyr. Я хочу использовать такие функции, как n_distinct (доступно на dplyr) и match (например, чтобы найти индекс элемента e столбца x в столбце y). Теперь я понимаю, что это не совсем соответствует идее параллельных вычислений, потому что, если различные части кадра данных обрабатываются отдельно, трудно использовать такие функции, как n_distinct и match.

Но у меня есть переменная под названием group который определяет группы, и это только внутри этих групп, которые я хочу использовать n_distinct а также match; поэтому, если бы я мог найти способ рассказать Spark, как распределить различные строки по разным кластерам (это правильное слово?) и использовать функции внутри групп, это могло бы сработать.

Можно ли сделать такую ​​вещь?

Спасибо вам за помощь!

0 ответов

Другие вопросы по тегам