dplyr-0.6.0 программирование unquoting
Я пытаюсь написать простую обертку summarise()
Произвольные переменные по произвольным группам, и теперь у меня есть успехи. Я загрузил правильную версию библиотеки, но запутался (опять же), как расставить аргументы с несколькими значениями.
В настоящее время у меня есть следующая функция...
table_summary <- function(df = .,
id = individual_id,
select = c(),
group = site,
...){
## Quote all arguments (see http://dplyr.tidyverse.org/articles/programming.html)
quo_id <- enquo(id)
quo_select <- enquo(select)
quo_group <- enquo(group)
## Subset the data
df <- df %>%
dplyr::select(!!quo_id, !!quo_select, !!quo_group) %>%
unique()
## gather() data, just in case there is > 1 variable selected to be summarised
df <- df %>%
gather(key = variable, value = value, !!quo_select)
## Summarise selected variables by specified groups
results <- df %>%
group_by(!!quo_group, variable) %>%
summarise(n = n(),
mean = mean(value, na.rm = TRUE))
return(results)
}
Который проходит большую часть пути и работает, если я укажу одну переменную группировки...
> table_summary(df = mtcars, id = model, select = c(mpg), group = gear)
# A tibble: 3 x 4
# Groups: c(gear) [?]
gear variable n mean
<dbl> <chr> <int> <dbl>
1 3 mpg 15 16.10667
2 4 mpg 12 24.53333
3 5 mpg 5 21.38000
... но терпит неудачу в group_by(!!quo_group, variable)
когда я указываю более одного group = c(gear, hp)
...
> mtcars$model <- rownames(mtcars)
> table_summary(df = mtcars, id = model, select = c(mpg), group = c(gear, hp))
Error in mutate_impl(.data, dots) :
Column `c(gear, hp)` must be length 32 (the group size) or one, not 64
Я вернулся и перечитал документацию по dplyr для программирования и прочитал, что вы можете захватить несколько переменных, используя quos()
вместо enquo()
а затем закрутите кавычки их!!!
вот так попробовал...
table_summary <- function(df = .,
id = individual_id,
select = c(),
group = c(),
digits = 3,
...){
## Quote all arguments (see http://dplyr.tidyverse.org/articles/programming.html)
quo_id <- enquo(id)
quo_select <- enquo(select)
quo_group <- quos(group) ## Use quos() rather than enquo()
UQS(quo_group) %>% print() ## Check to see what quo_group holds
## Subset the data
df <- df %>%
dplyr::select(!!quo_id, !!quo_select, !!!quo_group)) %>%
unique()
## gather() data, just in case there is > 1 variable selected to be summarised
df <- df %>%
gather(key = variable, value = value, !!quo_select)
## Summarise selected variables by specified groups
results <- df %>%
group_by(!!!quo_group, variable) %>%
summarise(n = n(),
mean = mean(value, na.rm = TRUE))
return(results)
}
... который теперь не работает при первой ссылке на !!!quo_group``within
dplyr:: выберите ()regardless of how many variables are specified under
группа = `...
> table_summary(df = mtcars, id = model, select = c(mpg), group = c(gear))
[[1]]
<quosure: frame>
~group
attr(,"class")
[1] "quosures"
Error in overscope_eval_next(overscope, expr) : object 'gear' not found
> traceback()
17: .Call(rlang_eval, f_rhs(quo), overscope)
16: overscope_eval_next(overscope, expr)
15: FUN(X[[i]], ...)
14: lapply(.x, .f, ...)
13: map(.x[matches], .f, ...)
12: map_if(ind_list, !is_helper, eval_tidy, data = names_list)
11: select_vars(names(.data), !(!(!quos(...))))
10: select.data.frame(., !(!quo_id), !(!quo_select), !(!(!quo_group)))
9: dplyr::select(., !(!quo_id), !(!quo_select), !(!(!quo_group)))
8: function_list[[i]](value)
7: freduce(value, `_function_list`)
6: `_fseq`(`_lhs`)
5: eval(quote(`_fseq`(`_lhs`)), env, env)
4: eval(quote(`_fseq`(`_lhs`)), env, env)
3: withVisible(eval(quote(`_fseq`(`_lhs`)), env, env))
2: df %>% dplyr::select(!(!quo_id), !(!quo_select), !(!(!quo_group))) %>%
unique()
1: table_summary(df = mtcars, id = model, select = c(mpg), group = c(gear))
Что кажется странным, и я думаю, что источником проблемы является то, что !!!quo_group
(т.е. UQS(quo_group)
) распечатывает ~gear
а не список предложений, как добавление print()
в проработанные примеры показывает, происходит...
> my_summarise <- function(df, ...) {
group_by <- quos(...)
UQS(group_by) %>% print()
df %>%
group_by(!!!group_by) %>%
summarise(a = mean(a))
}
> df <- tibble(
g1 = c(1, 1, 2, 2, 2),
g2 = c(1, 2, 1, 2, 1),
a = sample(5),
b = sample(5)
)
> my_summarise(df, g1, g2)
[[1]]
<quosure: global>
~g1
[[2]]
<quosure: global>
~g2
attr(,"class")
[1] "quosures"
# A tibble: 4 x 3
# Groups: g1 [?]
g1 g2 a
<dbl> <dbl> <dbl>
1 1 1 1.0
2 1 2 5.0
3 2 1 2.5
4 2 2 4.0
Я хотел бы явно указать переменные, по которым я хочу сгруппировать, в качестве параметра для моего аргумента, но работает ли он, если я укажу их как ...
но я решил проверить, работает ли моя функция при предоставлении группирующих переменных как ...
table_summary <- function(df = .,
id = individual_id,
select = c(),
group = c(),
digits = 3,
...){
## Quote all arguments (see http://dplyr.tidyverse.org/articles/programming.html)
quo_id <- enquo(id)
quo_select <- enquo(select)
## quo_group <- quos(group)
quo_group <- quos(...)
UQS(quo_group) %>% print()
## Subset the data
df <- df %>%
dplyr::select(!!quo_id, !!quo_select, !!!quo_group) %>%
unique()
## gather() data, just in case there is > 1 variable selected to be summarised
df <- df %>%
gather(key = variable, value = value, !!quo_select)
## Summarise selected variables by specified groups
results <- df %>%
group_by(!!!quo_group, variable) %>%
summarise(n = n(),
mean = mean(value, na.rm = TRUE))
return(results)
}
... но это не так, quos()
снова удаляем цитаты NULL
поэтому переменные не выбираются и не группируются по...
> table_summary(df = mtcars, id = model, select = c(mpg), gear, hp)
NULL
# A tibble: 1 x 3
variable n mean
<chr> <int> <dbl>
1 mpg 32 20.09062
> table_summary(df = mtcars, id = model, select = c(mpg), gear)
NULL
# A tibble: 1 x 3
variable n mean
<chr> <int> <dbl>
1 mpg 32 20.09062
Я прошел этот цикл несколько раз, теперь проверяю каждый метод использования enquo()
а также quos()
но не вижу, где я иду не так и несмотря на то, что несколько раз прочитал документацию по dplyr.
1 ответ
IIUC ваш пост, вы хотите поставить c(col1, col2)
в group_by()
, Это не поддерживается этим глаголом:
group_by(mtcars, c(cyl, am))
#> Error in mutate_impl(.data, dots) :
#> Column `c(cyl, am)` must be length 32 (the number of rows) or one, not 64
Это потому что group_by()
имеет измененную семантику, а не выбранную семантику. Это означает, что выражения, которые вы предоставляете group_by()
преобразующие выражения. Это удивительная, но довольно удобная функция. Например, вы можете сгруппировать по disp
разрезать на три интервала, как это:
group_by(mtcars, cut3 = cut(disp, 3))
Это также означает, что если вы поставите c(cyl, am)
, он объединит два столбца вместе и вернет вектор длиной 64, в то время как ожидалось, что длина 32 (количество строк).
Итак, ваша проблема в том, что вы хотите, чтобы group_by()
это имеет семантику выбора. Это легко сделать с помощью dplyr::select_vars()
, который скоро будет распакован в новый пакет tidyselect:
library("dplyr")
group_wrapper <- function(df, groups = rlang::chr()) {
groups <- select_vars(tbl_vars(df), !! enquo(groups))
group_by(df, !!! rlang::syms(groups))
}
В качестве альтернативы вы можете обернуть новый group_by_at()
глагол, который имеет выбранную семантику:
group_wrapper <- function(df, groups = rlang::chr()) {
group_by_at(df, vars(!! enquo(groups)))
}
Давайте попробуем это:
group_wrapper(mtcars, c(disp, am))
#> # A tibble: 32 x 11
#> # Groups: disp, am [27]
#> mpg cyl disp hp drat wt qsec vs am gear carb
#> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
#> 1 21.0 6 160 110 3.90 2.62 16.5 0 1 4 4
#> # ... with 22 more rows
Этот интерфейс имеет преимущество поддержки всех select()
операции для выбора столбцов для группировки.
Обратите внимание, что я использую rlang::chr()
в качестве аргумента по умолчанию, потому что c()
возвращается NULL
что не поддерживается выбором функций (мы можем захотеть изменить это в будущем). chr()
Вызванный без аргументов возвращает символьный вектор длины 0.