Частота элемента r и имя столбца
У меня есть фрейм данных, который имеет четыре столбца A, B, C и D:
A B C D
a a b c
b c x e
c d y a
d z
e
f
Я хотел бы получить частоту всех элементов и списки столбцов, которые они отображают, упорядоченные по частоте ранжирования. Вывод будет примерно таким:
Ranking frequency column
a 1 3 A, B, D
c 1 3 A, B, D
b 2 2 A, C
d 2 2 A, B
e 2 2 A, D
f .....
Буду признателен за любую помощь. Спасибо!
2 ответа
Решение
Что-то вроде этого может быть:
Данные
df <- read.table(header=T, text='A B C D
a a b c
b c x e
c d y a
d NA NA z
e NA NA NA
f NA NA NA',stringsAsFactors=F)
Решение
#find unique elements
elements <- unique(unlist(sapply(df, unique)))
#use a lapply to find the info you need
df2 <- data.frame(do.call(rbind,
lapply(elements, function(x) {
#find the rows and columns of the elements
a <- which(df == x, arr.ind=TRUE)
#find column names of the elements found
b <- names(df[a[,2]])
#find frequency
c <- nrow(a)
#produce output
c(x, c, paste(b, collapse=','))
})))
#remove NAs
df2 <- na.omit(df2)
#change column names
colnames(df2) <- c('element','frequency', 'columns')
#order according to frequency
df2 <- df2[order(df2$frequency, decreasing=TRUE),]
#create the ranking column
df2$ranking <- as.numeric(factor(df2$frequency,levels=unique(df2$frequency)))
Выход:
> df2
element frequency columns ranking
1 a 3 A,B,D 1
3 c 3 A,B,D 1
2 b 2 A,C 2
4 d 2 A,B 2
5 e 2 A,D 2
6 f 1 A 3
8 x 1 C 3
9 y 1 C 3
10 z 1 D 3
И если вы хотите, чтобы столбец элементов был в виде row.names, а столбец ранжирования был первым, вы также можете сделать следующее:
row.names(df2) <- df2$element
df2$element <- NULL
df2 <- df2[c('ranking','frequency','columns')]
Выход:
> df2
ranking frequency columns
a 1 3 A,B,D
c 1 3 A,B,D
b 2 2 A,C
d 2 2 A,B
e 2 2 A,D
f 3 1 A
x 3 1 C
y 3 1 C
z 3 1 D
Вот подход с использованием "dplyr" и "tidyr":
library(dplyr)
library(tidyr)
df %>%
gather(var, val, everything()) %>% ## Make a long dataset
na.omit %>% ## We don't need the NA values
group_by(val) %>% ## All calculations grouped by val
summarise(column = toString(var), ## This collapses
freq = n()) %>% ## This counts
mutate(ranking = dense_rank(desc(freq))) %>% ## This ranks
arrange(ranking) ## This sorts
# Source: local data frame [9 x 4]
#
# val column freq ranking
# 1 a A, B, D 3 1
# 2 c A, B, D 3 1
# 3 b A, C 2 2
# 4 d A, B 2 2
# 5 e A, D 2 2
# 6 f A 1 3
# 7 x C 1 3
# 8 y C 1 3
# 9 z D 1 3