Сравнить строки в группах в одном фрейме данных
Мои данные выглядят так:
library(dplyr)
library(data.table)
df <- data.frame(
customernumber = c("111", "111", "111", "111", "111","222", "222", "222", "222", "222", "222", "222"),
ordernumber = c("1", "1", "1", "2", "2", "1", "1", "1", "1", "2", "2", "3"),
article = c("JeansA", "JeansA", "ShirtA", "JeansA", "JeansB", "ShirtA", "ShirtB", "ShirtB", "JeansA", "JeansB", "ShirtA", "JeansB"),
size = c("40", "42", "40", "42", "44", "36", "36", "40", "40", "38", "44", "36"),
returned = c("1", "1", "0", "0", "1", "1", "1", "0", "0", "0", "0", "0")
)
Выход:
customernumber ordernumber article size returned
1 111 1 JeansA 40 1
2 111 1 JeansA 42 1
3 111 1 ShirtA 40 0
4 111 2 JeansA 42 0
5 111 2 JeansB 44 1
6 222 1 ShirtA 36 1
7 222 1 ShirtB 36 1
8 222 1 ShirtB 40 0
9 222 1 JeansA 40 0
10 222 2 JeansB 38 0
11 222 2 ShirtA 44 0
12 222 3 JeansB 36 0
Теперь я хочу отметить все заказы на клиента, для которых статья была возвращена, но заказана снова в следующем заказе в другом размере. Таким образом, все статьи, которые только обмениваются и поэтому не могут действительно рассматриваться как новый порядок. Таким образом, конечные результаты должны выглядеть так:
Результат:
customernumber ordernumber article size returned changed
1 111 1 JeansA 40 1 0
2 111 1 JeansA 42 1 0
3 111 1 ShirtA 40 0 0
4 111 2 JeansA 42 0 1
5 111 2 JeansB 44 1 0
6 222 1 ShirtA 36 1 0
7 222 1 ShirtB 36 1 0
8 222 1 ShirtB 40 0 0
9 222 1 JeansA 40 0 0
10 222 2 JeansB 38 0 0
11 222 2 ShirtA 44 0 1
12 222 3 JeansB 36 0 0
Я думал, что смогу решить эту проблему, введя переменную отставания с помощью dyplr (или data.table), но мне удается только отставать переменную в пределах той же группы, но я не могу поместить ее в следующую группу. Это:
df %>%
group_by(customernumber, ordernumber, article) %>%
mutate(lag_size = lag(size, order_by = article))
или же:
df <- data.table(df)
setorder(df, customernumber, ordernumber, article)
df[,lag_size := shift(size), by = .(customernumber, ordernumber, article)]
Я не хочу думать о цикле for (даже не уверен, решит ли он проблему), так как набор данных довольно большой, и на это уйдут целую вечность. И в целом мне действительно не хватает идей. Так что любая помощь приветствуется.
Спасибо!
Добавить:
Я наткнулся на другой вопрос, связанный с этим делом. Я хочу пометить только те статьи, которые были заказаны в другом размере в следующем порядке следования, как измененные, а не в том случае, если та же статья в том же размере была заказчиком снова. Таким образом, критерий для измененной переменной будет:
Заказ n: возвращен == 1 Заказ n+1: тот же товар, другой размер -> изменен == 1 (иначе изменен == 0)
Вот обновленный пример:
df <- data.frame(
customernumber = c("111", "111", "111", "111", "111", "111","222", "222", "222", "222", "222", "222", "222"),
ordernumber = c("1", "1", "1", "2", "2", "2", "1", "1", "1", "1", "2", "2", "3"),
article = c("JeansA", "JeansA", "ShirtA", "JeansA", "JeansA", "JeansB", "ShirtA", "ShirtB", "ShirtB", "JeansA", "JeansB", "ShirtA", "JeansB"),
size = c("40", "42", "40", "40", "44", "44", "36", "36", "40", "40", "38", "44", "36"),
returned = c("1", "1", "0", "0", "1", "1", "1", "1", "0", "0", "0", "0", "0")
)
Выход:
customernumber ordernumber article size returned
1 111 1 JeansA 40 1
2 111 1 JeansA 42 1
3 111 1 ShirtA 40 0
4 111 2 JeansA 40 0
5 111 2 JeansA 44 1
6 111 2 JeansB 44 1
7 222 1 ShirtA 36 1
8 222 1 ShirtB 36 1
9 222 1 ShirtB 40 0
10 222 1 JeansA 40 0
11 222 2 JeansB 38 0
11 222 2 ShirtA 44 0
12 222 3 JeansB 36 0
Результат:
customernumber ordernumber article size returned changed
1 111 1 JeansA 40 1 0
2 111 1 JeansA 42 1 0
3 111 1 ShirtA 40 0 0
4 111 2 JeansA 40 0 0
5 111 2 JeansA 44 1 1
6 111 2 JeansB 44 1 0
7 222 1 ShirtA 36 1 0
8 222 1 ShirtB 36 1 0
9 222 1 ShirtB 40 0 0
10 222 1 JeansA 40 0 0
11 222 2 JeansB 38 0 0
11 222 2 ShirtA 44 0 1
12 222 3 JeansB 36 0 0
Извините за путаницу, я действительно допустил ошибку в своем примере и неправильно заполнил измененную переменную. Если вы все еще помогаете мне, я был бы очень признателен.
Спасибо!
2 ответа
Новый ответ:
Возможное решение с data.table
:
library(data.table)
setDT(df)
df[, changed := 0
][df[df, on = .(customernumber, ordernumber < ordernumber, article), nomatch = 0
][size != i.size & returned == 1, .SD[!i.size %in% size], by = .(customernumber, ordernumber, article)
][, .(customernumber, ordernumber, article, size = i.size)][, unique(.SD)]
, on = .(customernumber, ordernumber, article, size), changed := 1][]
который дает:
customernumber ordernumber article size returned changed 1: 111 1 JeansA 40 1 0 2: 111 1 JeansA 42 1 0 3: 111 1 ShirtA 40 0 0 4: 111 2 JeansA 40 0 0 5: 111 2 JeansA 44 1 1 6: 111 2 JeansB 44 1 0 7: 222 1 ShirtA 36 1 0 8: 222 1 ShirtB 36 1 0 9: 222 1 ShirtB 40 0 0 10: 222 1 JeansA 40 0 0 11: 222 2 JeansB 38 0 0 12: 222 2 ShirtA 44 0 1 13: 222 3 JeansB 36 0 0
Старый ответ:
library(data.table)
setDT(df)
df[df[returned == 0][df[returned == 1]
, on = .(customernumber, article)
][ordernumber != i.ordernumber]
, on = .(customernumber, article, returned)
, changed := i.returned
][, changed := replace(changed, is.na(changed), 0)][]
который дает:
customernumber ordernumber article size returned changed 1: 111 1 JeansA 40 1 0 2: 111 1 JeansA 42 1 0 3: 111 1 ShirtA 40 0 0 4: 111 2 JeansA 42 0 1 5: 111 2 JeansB 44 1 0 6: 222 1 ShirtA 36 1 0 7: 222 1 ShirtB 36 1 0 8: 222 1 ShirtB 40 0 0 9: 222 1 JeansA 40 0 0 10: 222 2 JeansB 38 0 0 11: 222 2 ShirtA 44 0 1 12: 222 3 JeansB 36 0 0
Вы работаете более чем с одним условием задержки, поэтому нам нужно более одного lag
команды для создания этого условия. Затем мы можем использовать case_when
создать changed
колонка.
df2 <- df %>%
group_by(customernumber, article) %>%
mutate(lag_returned = lag(returned),
lag_ordernumber = lag(ordernumber)) %>%
ungroup() %>%
mutate(changed = case_when(
returned %in% "0" &
duplicated(article) &
lag_returned %in% "1" &
ordernumber != lag_ordernumber ~ "1",
TRUE ~ "0"
)) %>%
select(-starts_with("lag"))
df2
# # A tibble: 12 x 6
# customernumber ordernumber article size returned changed
# <fct> <fct> <fct> <fct> <fct> <chr>
# 1 111 1 JeansA 40 1 0
# 2 111 1 JeansA 42 1 0
# 3 111 1 ShirtA 40 0 0
# 4 111 2 JeansA 42 0 1
# 5 111 2 JeansB 44 1 0
# 6 222 1 ShirtA 36 1 0
# 7 222 1 ShirtB 36 1 0
# 8 222 1 ShirtB 40 0 0
# 9 222 1 JeansA 40 0 0
# 10 222 2 JeansB 38 0 0
# 11 222 2 ShirtA 44 0 1
# 12 222 3 JeansB 36 0 0