Ежемесячный тренд времени от датафрейма дат

Question

Ежемесячный тренд времени от датафрейма дат

У меня есть набор данных, который выглядит так:

  group id      date1      date2      date3      date4
1     1  1 1991-10-14 1992-05-20 1992-12-09 1993-06-30
2     1  2       <NA> 1992-05-21 1992-12-10 1993-06-29
3     1  3       <NA>       <NA> 1992-12-08 1993-06-29
4     1  4 1991-10-14 1992-05-19       <NA>       <NA>
5     1  5 1991-10-15 1992-05-21       <NA> 1993-06-30
6     1  6 1991-10-15       <NA>       <NA> 1993-06-30

Здесь данные в формате R:

structure(list(group = c(1L, 1L, 1L, 1L, 1L, 1L), 
               id = 1:6, 
               date1 = structure(c(7956, NA, NA, 7956, 7957, 7957), class = "Date"), 
               date2 = structure(c(8175, 8176, NA, 8174, 8176, NA), class = "Date"), 
               date3 = structure(c(8378, 8379, 8377, NA, NA, NA), class = "Date"), 
               date4 = structure(c(8581, 8580, 8580, NA, 8581, 8581), class = "Date")), 
          .Names = c("group", "id", "date1", "date2", "date3", "date4"),
          row.names = c(NA, 6L), class = "data.frame")

То есть у нас есть группирующая переменная, несколько человек и четыре возможных даты интереса.

Теперь я хочу построить линейную тенденцию времени месяца для каждого человека из этого. Другими словами, я пытаюсь построить тренд со значением 1 на первомNA Дата. После этого наблюдается тенденция кNA периоды - месяцы, прошедшие с момента первогоNA Дата.

Моя цель - эта структура (индивидуум 1, группа 1):

  group id period trend
1     1  1      1     1
2     1  1      2     8
3     1  1      3    15
4     1  1      4    21

То есть расплавленный фрейм данных с месяцами, прошедшими с момента t = 1.

Я поиграл с идеями из этой темы: Количество месяцев между двумя датами. Тем не менее, я не могу найти решение, которое не связано с forКачественное и мучительное количество if-заявления.

Любая помощь приветствуется!

0

r dataframe date trend

Источник

user5055647 22 ноя '18 в 19:47

2 ответа

Решение

Data.table подход

Я оставляю округление и / или добавляю +1 к тебе.. это всегда сложно с месяцами. Я лично стараюсь избегать этого и рассчитываю дни или недели (или почти все, НО месяцы)...

library( data.table)
dt <- melt ( as.data.table( df ), id.vars = c("group", "id"), variable.name = "date_id", value.name = "date" )
setkey(dt, id, group, date_id)
dt[, diff := lubridate::interval(  date[which.min( date ) ], date ) / months(1) , by = c("group", "id")]

head(dt)
#    group id date_id       date      diff
# 1:     1  1   date1 1991-10-14  0.000000
# 2:     1  1   date2 1992-05-20  7.193548
# 3:     1  1   date3 1992-12-09 13.833333
# 4:     1  1   date4 1993-06-30 20.533333
# 5:     1  2   date1       <NA>        NA
# 6:     1  2   date2 1992-05-21  0.000000

1

Источник

user6356278 22 ноя '18 в 21:08

Другие вопросы по тегам r dataframe date trend

user3949008 22 ноя '18 в 20:22 2018-11-22 20:22 · Accepted Answer · 2018-11-22 20:22

Вот одно из возможных решений с использованием dplyr а также tidyr:

library(dplyr)
library(tidyr)
library(stringr)

df %>%
  gather(period, date, -group, -id) %>%
  arrange(group, id, period) %>%
  mutate(date = as.Date(date)) %>%
  group_by(group, id) %>%
  filter(!all(is.na(date))) %>% 
  mutate(
    trend = as.integer(
      floor(difftime(date, date[which.max(!is.na(date))], units = 'days') / 30)
      ) + 1,
    period = str_replace(period, 'date', '')
    ) %>%
  select(-date)

Вывод следующий:

# A tibble: 24 x 4
# Groups:   group, id [6]
   group    id period trend
   <int> <int>  <chr> <dbl>
 1     1     1      1     1
 2     1     1      2     8
 3     1     1      3    15
 4     1     1      4    21
 5     1     2      1    NA
 6     1     2      2     1
 7     1     2      3     7
 8     1     2      4    14
 9     1     3      1    NA
10     1     3      2    NA
# ... with 14 more rows

ПРИМЕЧАНИЕ. Отредактировано, чтобы добавить фильтр для фильтрации случаев, когда ВСЕ даты равны NA для данной группы / идентификатора. Иначе, which,max не удастся.