Sparklyr: принудительное распределение для использования таких функций, как n_distinct, match

Question

Sparklyr: принудительное распределение для использования таких функций, как n_distinct, match

У меня есть датафрейм Spark, и я использую sparklyr. Я хочу использовать такие функции, как n_distinct (доступно на dplyr) и match (например, чтобы найти индекс элемента e столбца x в столбце y). Теперь я понимаю, что это не совсем соответствует идее параллельных вычислений, потому что, если различные части кадра данных обрабатываются отдельно, трудно использовать такие функции, как n_distinct и match.

Но у меня есть переменная под названием group который определяет группы, и это только внутри этих групп, которые я хочу использовать n_distinct а также match; поэтому, если бы я мог найти способ рассказать Spark, как распределить различные строки по разным кластерам (это правильное слово?) и использовать функции внутри групп, это могло бы сработать.

Можно ли сделать такую вещь?

Спасибо вам за помощь!

2

r apache-spark sparklyr

Источник

user10011330 02 июл '18 в 17:58

0 ответов

Другие вопросы по тегам r apache-spark sparklyr