Автоматическое расширение R-фактора в набор 1/0 переменных индикатора для каждого уровня фактора

Question

Автоматическое расширение R-фактора в набор 1/0 переменных индикатора для каждого уровня фактора

У меня есть фрейм данных R, содержащий фактор, который я хочу "развернуть", чтобы для каждого уровня фактора в новом фрейме данных был связан столбец, который содержит показатель 1/0. Например, предположим, у меня есть:

df.original <-data.frame(eggs = c("foo", "foo", "bar", "bar"), ham = c(1,2,3,4))

Я хочу:

df.desired  <- data.frame(foo = c(1,1,0,0), bar=c(0,0,1,1), ham=c(1,2,3,4))

Потому что для определенных анализов, для которых вам нужен полностью числовой фрейм данных (например, анализ главных компонентов), я думал, что эта функция может быть встроена. Написание функции для этого не должно быть слишком сложным, но я могу предвидеть некоторые проблемы, связанные с именами столбцов, и если что-то уже существует, я бы предпочел использовать это.

117

r

Источник

user271844 19 фев '11 в 03:23

10 ответов

Решение

Если ваш фрейм данных состоит только из факторов (или вы работаете с подмножеством переменных, которые являются всеми факторами), вы также можете использовать acm.disjonctif функция от ade4 пакет:

R> library(ade4)
R> df <-data.frame(eggs = c("foo", "foo", "bar", "bar"), ham = c("red","blue","green","red"))
R> acm.disjonctif(df)
  eggs.bar eggs.foo ham.blue ham.green ham.red
1        0        1        0         0       1
2        0        1        1         0       0
3        1        0        0         1       0
4        1        0        0         0       1

Не совсем тот случай, который вы описываете, но он тоже может быть полезен...

18

Источник

user249691 19 фев '11 в 12:49

Быстрый способ использования reshape2 пакет:

require(reshape2)

> dcast(df.original, ham ~ eggs, length)

Using ham as value column: use value_var to override.
  ham bar foo
1   1   0   1
2   2   0   1
3   3   1   0
4   4   1   0

Обратите внимание, что при этом создаются именно те имена столбцов, которые вам нужны.

9

Источник

user415690 19 фев '11 в 13:09

Вероятно, фиктивная переменная похожа на то, что вы хотите. Тогда model.matrix полезен:

> with(df.original, data.frame(model.matrix(~eggs+0), ham))
  eggsbar eggsfoo ham
1       0       1   1
2       0       1   2
3       1       0   3
4       1       0   4

7

Источник

user314020 19 фев '11 в 03:49

Поздняя запись class.ind от nnet пакет

library(nnet)
 with(df.original, data.frame(class.ind(eggs), ham))
  bar foo ham
1   0   1   1
2   0   1   2
3   1   0   3
4   1   0   4

6

Источник

user1385941 19 фев '13 в 05:04

Просто наткнулся на этот старый поток и подумал, что я бы добавил функцию, которая использует ade4, чтобы взять фрейм данных, состоящий из факторов и / или числовых данных, и вернуть фрейм данных с факторами в виде фиктивных кодов.

dummy <- function(df) {  

    NUM <- function(dataframe)dataframe[,sapply(dataframe,is.numeric)]
    FAC <- function(dataframe)dataframe[,sapply(dataframe,is.factor)]

    require(ade4)
    if (is.null(ncol(NUM(df)))) {
        DF <- data.frame(NUM(df), acm.disjonctif(FAC(df)))
        names(DF)[1] <- colnames(df)[which(sapply(df, is.numeric))]
    } else {
        DF <- data.frame(NUM(df), acm.disjonctif(FAC(df)))
    }
    return(DF)
}

Давай попробуем.

df <-data.frame(eggs = c("foo", "foo", "bar", "bar"), 
            ham = c("red","blue","green","red"), x=rnorm(4))     
dummy(df)

df2 <-data.frame(eggs = c("foo", "foo", "bar", "bar"), 
            ham = c("red","blue","green","red"))  
dummy(df2)

4

Источник

user1000343 30 окт '11 в 04:38

Вот более понятный способ сделать это. Я использую model.matrix, чтобы создать фиктивные логические переменные, а затем объединить их с исходным фреймом данных.

df.original <-data.frame(eggs = c("foo", "foo", "bar", "bar"), ham = c(1,2,3,4))
df.original
#   eggs ham
# 1  foo   1
# 2  foo   2
# 3  bar   3
# 4  bar   4

# Create the dummy boolean variables using the model.matrix() function.
> mm <- model.matrix(~eggs-1, df.original)
> mm
#   eggsbar eggsfoo
# 1       0       1
# 2       0       1
# 3       1       0
# 4       1       0
# attr(,"assign")
# [1] 1 1
# attr(,"contrasts")
# attr(,"contrasts")$eggs
# [1] "contr.treatment"

# Remove the "eggs" prefix from the column names as the OP desired.
colnames(mm) <- gsub("eggs","",colnames(mm))
mm
#   bar foo
# 1   0   1
# 2   0   1
# 3   1   0
# 4   1   0
# attr(,"assign")
# [1] 1 1
# attr(,"contrasts")
# attr(,"contrasts")$eggs
# [1] "contr.treatment"

# Combine the matrix back with the original dataframe.
result <- cbind(df.original, mm)
result
#   eggs ham bar foo
# 1  foo   1   0   1
# 2  foo   2   0   1
# 3  bar   3   1   0
# 4  bar   4   1   0

# At this point, you can select out the columns that you want.

3

Источник

user4561314 21 май '16 в 01:08

В sapply ==над яйцами можно использовать для создания фиктивных векторов:

      x <- with(df.original, data.frame(+sapply(unique(eggs), `==`, eggs), ham))
x
#  foo bar ham
#1   1   0   1
#2   1   0   2
#3   0   1   3
#4   0   1   4

all.equal(x, df.desired)
#[1] TRUE

Возможно, более быстрый вариант. Результат лучше всего использовать как listили же data.frame:

      . <- unique(df.original$eggs)
with(df.original, 
     data.frame(+do.call(cbind, lapply(setNames(., .), `==`, eggs)), ham))

Индексирование в - Result лучше всего использовать как:

      . <- unique(df.original$eggs)
i <- match(df.original$eggs, .)
nc <- length(.)
nr <- length(i)
cbind(matrix(`[<-`(integer(nc * nr), 1:nr + nr * (i - 1), 1), nr, nc,
                 dimnames=list(NULL, .)), df.original["ham"])

С использованием outer- Результат лучше всего использовать как:

      . <- unique(df.original$eggs)
cbind(+outer(df.original$eggs, setNames(., .), `==`), df.original["ham"])

С использованием rep- Результат лучше всего использовать как matrix:

      . <- unique(df.original$eggs)
n <- nrow(df.original)
cbind(+matrix(df.original$eggs == rep(., each=n), n, dimnames=list(NULL, .)),
 df.original["ham"])

0

Источник

user10488504 20 апр '22 в 20:27

Мне нужна была функция для "разнесения" факторов, которая была бы более гибкой, и я сделал ее на основе функции acm.disjonctif из пакета ade4. Это позволяет вам выбрать разнесенные значения, которые равны 0 и 1 в acm.disjonctif. Это только взрывает факторы, которые имеют "несколько" уровней. Числовые столбцы сохранены.

# Function to explode factors that are considered to be categorical,
# i.e., they do not have too many levels.
# - data: The data.frame in which categorical variables will be exploded.
# - values: The exploded values for the value being unequal and equal to a level.
# - max_factor_level_fraction: Maximum number of levels as a fraction of column length. Set to 1 to explode all factors.
# Inspired by the acm.disjonctif function in the ade4 package.
explode_factors <- function(data, values = c(-0.8, 0.8), max_factor_level_fraction = 0.2) {
  exploders <- colnames(data)[sapply(data, function(col){
      is.factor(col) && nlevels(col) <= max_factor_level_fraction * length(col)
    })]
  if (length(exploders) > 0) {
    exploded <- lapply(exploders, function(exp){
        col <- data[, exp]
        n <- length(col)
        dummies <- matrix(values[1], n, length(levels(col)))
        dummies[(1:n) + n * (unclass(col) - 1)] <- values[2]
        colnames(dummies) <- paste(exp, levels(col), sep = '_')
        dummies
      })
    # Only keep numeric data.
    data <- data[sapply(data, is.numeric)]
    # Add exploded values.
    data <- cbind(data, exploded)
  }
  return(data)
}

0

Источник

user1021892 22 июн '15 в 09:57

(Вопрос 10летний, но для полноты картины ...)

Функция i() от fixest package делает именно это.

Помимо создания матрицы дизайна из факторной переменной, вы также можете очень легко сделать две дополнительные вещи на лету:

значения биннинга (с аргументом bin),
без учета некоторых значений факторов (с аргументом ref).

И поскольку он создан для этой задачи, если ваша переменная окажется числовой, вам не нужно оборачивать ее с помощью factor(x_num) (в отличие от решения).

Вот пример:

      data(airquality)

table(airquality$Month)
#>  5  6  7  8  9 
#> 31 30 31 31 30

head(i(airquality$Month))
#>      5 6 7 8 9
#> [1,] 1 0 0 0 0
#> [2,] 1 0 0 0 0
#> [3,] 1 0 0 0 0
#> [4,] 1 0 0 0 0
#> [5,] 1 0 0 0 0
#> [6,] 1 0 0 0 0

#
# Binning (check out the help, there are many many ways to bin)
#

colSums(i(airquality$Month, bin = 5:6)))
#>  5  7  8  9 
#> 61 31 31 30 

#
# References
#

head(i(airquality$Month, ref = c(6, 9)))
#>      5 7 8
#> [1,] 1 0 0
#> [2,] 1 0 0
#> [3,] 1 0 0
#> [4,] 1 0 0
#> [5,] 1 0 0
#> [6,] 1 0 0

Наконец, для тех, кто задается вопросом, время эквивалентно model.matrix решение.

      library(microbenchmark)
my_data = data.frame(x = as.factor(sample(100, 1e6, TRUE)))

microbenchmark(mm = model.matrix(~x, my_data),
               i = i(my_data$x), times = 5)
#> Unit: milliseconds
#>  expr      min       lq     mean   median       uq      max neval
#>    mm 155.1904 156.7751 209.2629 182.4964 197.9084 353.9443     5
#>     i 154.1697 154.7893 159.5202 155.4166 163.9706 169.2550     5

0

Источник

user4075503 04 окт '21 в 23:56

Другие вопросы по тегам r

user430909 19 фев '11 в 03:50 2011-02-19 03:50 · Accepted Answer · 2011-02-19 03:50

Использовать model.matrix функция:

model.matrix( ~ Species - 1, data=iris )

138

Источник

user430909 19 фев '11 в 03:50