Найти максимальный пробег по группе
Мне нужно найти рабочий максимум переменной по группе, используя R. Переменная сортируется по времени внутри группы, используя df[order(df$group, df$time),]
,
У моей переменной есть некоторые NA, но я могу справиться с этим, заменив их нулями для этого вычисления.
вот так выглядит фрейм данных df:
(df <- structure(list(var = c(5L, 2L, 3L, 4L, 0L, 3L, 6L, 4L, 8L, 4L),
group = structure(c(1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L),
.Label = c("a", "b"), class = "factor"),
time = c(1L, 2L, 3L, 4L, 5L, 1L, 2L, 3L, 4L, 5L)),
.Names = c("var", "group","time"),
class = "data.frame", row.names = c(NA, -10L)))
# var group time
# 1 5 a 1
# 2 2 a 2
# 3 3 a 3
# 4 4 a 4
# 5 0 a 5
# 6 3 b 1
# 7 6 b 2
# 8 4 b 3
# 9 8 b 4
# 10 4 b 5
И я хочу переменную curMax как:
var | group | time | curMax
5 a 1 5
2 a 2 5
3 a 3 5
4 a 4 5
0 a 5 5
3 b 1 3
6 b 2 6
4 b 3 6
8 b 4 8
4 b 5 8
Пожалуйста, дайте мне знать, если у вас есть идеи, как реализовать это в R.
2 ответа
Решение
Вы можете сделать это так:
df$curMax <- ave(df$var, df$group, FUN=cummax)
Мы можем попробовать data.table
, Преобразовать data.frame в data.tablesetDT(df1)
), сгруппированные по "группе", мы получаем cummax
из 'var' и назначить (:=
) к новой переменной ('curMax')
library(data.table)
setDT(df1)[, curMax := cummax(var), by = group]
Как прокомментировал @Michael Chirico, если данные не order
"Время", мы можем сделать это в "я"
setDT(df1)[order(time), curMax:=cummax(var), by = group]
Или с dplyr
library(dplyr)
df1 %>%
group_by(group) %>%
mutate(curMax = cummax(var))