Группировка по 2 столбцам и использование значений последующих групп в расчетах

Question

Группировка по 2 столбцам и использование значений последующих групп в расчетах

Предположим, у меня есть df с 3 столбцами, group1, group2 и variable

set.seed(1)
group1 = c(rep(1,5),rep(2,5),rep(3,5),rep(4,5))
group2 = c("A","B","C","D","B","C","C","B","C","A","B","D")
variable = c(as.integer(rnorm(20,2)**3))
df=data.frame(group1, group2, variable)

Я добавил столбец "min1", в котором указано, присутствует ли значение b в "group1" в group1(x-1). Наоборот с плюс1. Ниже общего фрейма данных:

   group1 group2 variable min1 plus1
1       1      A        3    0     0
2       1      B       11    0     1
3       1      C        2    0     1
4       2      D       47    0     1
5       2      B       13    1     1
6       2      C        2    1     1
7       3      C       16    1     0
8       3      B       21    1     1
9       3      C       18    1     0
10      4      A        5    0     0
11      4      B       44    1     0
12      4      D       14    0     0

Теперь я хочу сделать вычисления, такие как max() и sum() (но также и некоторые более экзотические) для переменных, но не только для всех значений в их собственной комбинации group1 и group2, но включая значения группы перед (или после этого). Пример min1 показан ниже.

  group1_min1 group2_min1 sum_min1 max_min1
1           2           B       24       13
2           2           C        4        2
3           3           C       36       18
4           3           B       34       21
5           4           B       65       44

Обратите внимание, что для group1_min1(3),group2_min1(C) используются три значения: строки 6,7 и 9 (2,16 и 18).

Я попытался использовать group_by и суммировать в dplyr, что-то вроде:

group_by(group1, group2) %>% 
summarize_each(funs(sum, max))

РЕДАКТИРОВАТЬ:

Я нашел решение, чтобы добавить сумму к оригинальной df:

sum_min1 = c()
j=0
for (j in 1:(length(df$group1))){
  if (df[j,"min1"] == 0){sum_min1 = c(sum_min1,0)} else {
    sum_min1 = c(sum_min1,(sum(df[which((df[,"group1"] == df[j,"group1"] | df[,"group1"] == (df[j,"group1"]-1)) & df[,"group2"]==(df[j,"group2"])),"variable"])))
  }
}
df = cbind(df,sum_min1)

Это обеспечивает вывод:

   group1 group2 variable min1 plus1 sum_min1
1         1    A        3    0     0       0
2         1    B       11    0     1       0
3         1    C        2    0     1       0
4         2    D       47    0     0       0
5         2    B       13    1     1      24
6         2    C        2    1     1       4
7         3    C       16    1     0      36
8         3    B       21    1     1      34
9         3    C       18    1     0      36
10        4    A        5    0     0       0
11        4    B       44    1     0      65
12        4    D       14    0     0       0

Однако это кажется очень грубым способом и может занять много времени для больших наборов данных, также на самом деле существует множество переменных и множество функций. Также это может быть проблемой, потому что я хочу сделать некоторые пользовательские функции, которые включают цикл for для всех значений.

Есть ли более элегантный способ сделать это?

Извините за все, что я делаю неправильно, я новичок в R и Stackru, а не носитель языка.

1

r function grouping condition summarize

Источник

user7194474 01 дек '16 в 16:30

1 ответ

Решение

Другие вопросы по тегам r function grouping condition summarize

user6923586 01 дек '16 в 21:59 2016-12-01 21:59 · Accepted Answer · 2016-12-01 21:59

# Data
set.seed(1)
group1 = c(rep(1,3),rep(2,3),rep(3,3),rep(4,3))
group2 = c("A","B","C","D","B","C","C","B","C","A","B","D")
variable = c(as.integer(rnorm(12,2)**3))
df=data.frame(group1, group2, variable)

Для первой части-

df$min1 <- sapply(seq(nrow(df)), function(x)
          {
           if(df[x, "group1"] == 1){0} else {
            max(df[x, "group2"] %in% df[df$group1 == df[x,"group1"] - 1,"group2"])}
          })

df$plus1 <- sapply(seq(nrow(df)), function(x)
          {
           if(df[x, "group1"] == max(df$group1){0} else {
            max(df[x, "group2"] %in% df[df$group1 == df[x,"group1"] + 1,"group2"])}
          })

Вторая часть

df$sum_min1 <- sapply(seq(nrow(df)), function(x)
                {
                 if(df[x, "group1"] == 1){0}else{
                  sum(df[df$group1 == df[x,"group1"] & 
                         df$group2 == df[x,"group2"],"variable"],
                      df[df$group1 == df[x,"group1"] - 1 &
                         df$group2 == df[x,"group2"],"variable"])}
                 })