R Заменить NA для всех столбцов, кроме *

Question

R Заменить NA для всех столбцов, кроме *

library(tidyverse)
df <- tibble(Date = c(rep(as.Date("2020-01-01"), 3), NA),
             col1 = 1:4,
             thisCol = c(NA, 8, NA, 3),
             thatCol = 25:28,
             col999 = rep(99, 4))
#> # A tibble: 4 x 5
#>   Date        col1  thisCol thatCol col999
#>   <date>     <int>    <dbl>   <int>  <dbl>
#> 1 2020-01-01     1       NA      25     99
#> 2 2020-01-01     2        8      26     99
#> 3 2020-01-01     3       NA      27     99
#> 4 NA             4        3      28     99

В моем фактическом фрейме данных R есть сотни столбцов, которые не имеют четких названий, но могут быть аппроксимированы df фрейм данных выше.

Я хочу заменить все значения NA с 0, за исключением нескольких столбцов (в моем примере я хочу опустить Date столбец и thatColстолбец. Я бы хотел сделать это таким образом:

df %>% replace(is.na(.), 0)
#> Error: Assigned data `values` must be compatible with existing data.
#> i Error occurred for column `Date`.
#> x Can't convert <double> to <date>.
#> Run `rlang::last_error()` to see where the error occurred.

И мои неудачные идеи для выполнения "все, кроме" замены NA показаны ниже.

df %>% replace(is.na(c(., -c(Date, thatCol)), 0))
df %>% replace_na(list([, c(2:3, 5)] = 0))
df %>% replace_na(list(everything(-c(Date, thatCol)) = 0))

Есть ли способ выделить все, НО так, как мне нужно? Существуют сотни столбцов с непоследовательными названиями, поэтому вводить их один за другим нецелесообразно.

4

r select tidyr tidyselect

Источник

user6661426 01 май '20 в 17:02

5 ответов

Решение

У вас есть несколько вариантов здесь на основеdata.table.

Один из самых крутых вариантов: setnafill (версия>= 1.12.4):

library(data.table)
setDT(df)

data.table::setnafill(df,fill = 0, cols = colnames(df)[!(colnames(df) %in% c("Date", thatCol)]))

Обратите внимание, что ваш фрейм данных обновляется по ссылке.

2

Источник

user9197726 01 май '20 в 17:13

Другая base решение:

 to_change<-grep("^(this|col)",names(df))
   df[to_change]<- sapply(df[to_change],function(x) replace(x,is.na(x),0))
    df
    # A tibble: 4 x 5
      Date        col1 thisCol thatCol col999
      <date>     <dbl>   <dbl>   <int>  <dbl>
    1 2020-01-01     1       0      25     99
    2 2020-01-01     2       8      26     99
    3 2020-01-01     3       0      27     99
    4 NA             0       3      28     99

Данные (я изменил одно значение):

df <- structure(list(Date = structure(c(18262, 18262, 18262, NA), class = "Date"), 
    col1 = c(1L, 2L, 3L, NA), thisCol = c(NA, 8, NA, 3), thatCol = 25:28, 
    col999 = c(99, 99, 99, 99)), row.names = c(NA, -4L), class = c("tbl_df", 
"tbl", "data.frame"))

2

Источник

user10323798 01 май '20 в 17:51

replace работает с data.frame, поэтому мы можем просто выполнить замену по индексу и обновить исходный набор данных

df[-c(1, 4)] <- replace(df[-c(1, 4)], is.na(df[-c(1, 4)]), 0)

Или используя replace_na с across (из нового dplyr)

library(dplyr)
library(tidyr)
df %>% 
     mutate(across(-c(Date, thatCol), ~ replace_na(., 0)))

2

Источник

user3732271 01 май '20 в 22:02

Если вы знаете те, которые не хотите менять, вы можете сделать это так:

df <- tibble(Date = c(rep(as.Date("2020-01-01"), 3), NA),
             col1 = 1:4,
             thisCol = c(NA, 8, NA, 3),
             thatCol = 25:28,
             col999 = rep(99, 4))


#dplyr
df_nonreplace <- select(df, c("Date", "thatCol"))

df_replace <- df[ ,!names(df) %in% names(df_nonreplace)]

df_replace[is.na(df_replace)] <- 0

df <- cbind(df_nonreplace, df_replace)


> head(df)
        Date thatCol col1 thisCol col999
1 2020-01-01      25    1       0     99
2 2020-01-01      26    2       8     99
3 2020-01-01      27    3       0     99
4       <NA>      28    4       3     99

0

Источник

user5473542 01 май '20 в 17:20

Другие вопросы по тегам r select tidyr tidyselect

user3962914 01 май '20 в 17:14 2020-05-01 17:14 · Accepted Answer · 2020-05-01 17:14

Вы можете использовать mutate_at:

library(dplyr)

Удалить их по имени

df %>% mutate_at(vars(-c(Date, thatCol)), ~replace(., is.na(.), 0))

Удалите их по положению

df %>% mutate_at(-c(1,4), ~replace(., is.na(.), 0))

Выберите их по имени

df %>% mutate_at(vars(col1, thisCol, col999), ~replace(., is.na(.), 0))

Выберите их по позиции

df %>% mutate_at(c(2, 3, 5), ~replace(., is.na(.), 0))

Если вы хотите использовать replace_na

df %>% mutate_at(vars(-c(Date, thatCol)), tidyr::replace_na, 0)

Обратите внимание, что mutate_at скоро будет заменен across в dplyr 1.0.0.