Выбрать столбцы из кадра данных, где группы выборок отличны от нуля

Question

Выбрать столбцы из кадра данных, где группы выборок отличны от нуля

У меня есть выборка (строки) по видам (столбцам) данных. И столбец в другом кадре данных, который кодирует образцы в группы. Я хочу выбрать все столбцы, где все сэмплы в любой из групп имеют ненулевое значение.

рамка вида:

structure(list(Otu000132 = c(0L, 56L, 30L, 52L, 1L, 4L, 31L, 4L, 17L, 9L, 4L), 
               Otu000144 = c(191L, 14L, 58L, 137L, 127L, 222L, 26L, 175L, 133L, 107L, 43L),
               Otu000146 = c(0L, 0L, 0L, 0L, 16L, 62L, 41L, 16L, 60L, 32L, 0L), 
               Otu000147 = c(0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L), 
               Otu000151 = c(2L, 9L, 4L, 1L, 0L, 4L, 4L, 2L, 3L, 0L, 0L),
               Otu000162 = c(2L, 1L, 0L, 0L, 1L, 1L, 0L, 2L, 1L, 0L, 0L), 
               Otu000164 = c(2L, 0L, 1L, 2L, 0L, 0L, 0L, 0L, 0L, 0L, 0L),
               Otu000174 = c(0L, 0L, 3L, 1L, 0L, 2L, 0L, 1L, 2L, 1L, 0L), 
               Otu000176 = c(1L, 9L, 0L, 1L, 2L, 5L, 3L, 3L, 8L, 2L, 2L), 
               Otu000186 = c(1L, 0L, 0L, 0L, 0L, 0L, 0L, 1L, 0L, 0L, 0L),
               Otu000190 = c(1L, 1L, 1L, 0L, 0L, 5L, 1L, 2L, 7L, 0L, 0L)),
          .Names = c("Otu000132", "Otu000144", "Otu000146", "Otu000147", 
                     "Otu000151", "Otu000162", "Otu000164", "Otu000174", 
                     "Otu000176", "Otu000186", "Otu000190"),
          row.names = 30:40, class = "data.frame")

кадр группировки:

structure(c(30, 31, 32, 33, 34, 35, 36, 37, 38, 39,
            40, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3), 
          .Dim = c(11L, 2L))

желаемый результат:

structure(list(Otu000132 = c(0L, 56L, 30L, 52L, 1L, 4L, 31L, 4L, 17L, 9L, 4L), 
               Otu000144 = c(191L, 14L, 58L, 137L, 127L, 222L, 26L, 175L, 133L, 107L, 43L), 
               Otu000151 = c(2L, 9L, 4L, 1L, 0L, 4L, 4L, 2L, 3L, 0L, 0L), 
               Otu000176 = c(1L, 9L, 0L, 1L, 2L, 5L, 3L, 3L, 8L, 2L, 2L),
               Otu000190 = c(1L, 1L, 1L, 0L, 0L, 5L, 1L, 2L, 7L, 0L, 0L)), 
          .Names = c("Otu000132", "Otu000144",  "Otu000151", 
                     "Otu000176", "Otu000190"),
          row.names = 30:40, class = "data.frame")

Я чувствую, что это должно быть то, что я мог бы сделать с dplyr select, но я не могу понять это. У кого-нибудь есть предложения, чтобы начать меня на пути?

-1

r dplyr data-management

Источник

user4601954 04 окт '16 в 15:26

3 ответа

Решение

Мы split первый столбец группировки данных группы ('gp1') по второму (gp1[,2]) к list, цикл через listподмножество строк набора видов, сопоставляя имена строк с list элементы, получить столбец суммы логической матрицы (x1==0), проверьте, что это больше 0, сравните соответствующие элементы каждого list использование элемента & в Reduce, отрицать (!) индекс для изменения ИСТИНА в ЛОЖЬ (и наоборот) для подмножества столбцов набора данных видов.

sp1[!Reduce(`&`,lapply(split(gp1[,1], gp1[,2]), function(x) {
                x1 <- sp1[match(x, row.names(sp1)),]
                colSums(x1==0)>0}))]
#    Otu000132 Otu000144 Otu000151 Otu000176 Otu000190
#30         0       191         2         1         1
#31        56        14         9         9         1
#32        30        58         4         0         1
#33        52       137         1         1         0
#34         1       127         0         2         0
#35         4       222         4         5         5
#36        31        26         4         3         1
#37         4       175         2         3         2
#38        17       133         3         8         7
#39         9       107         0         2         0
#40         4        43         0         2         0

1

Источник

user3732271 04 окт '16 в 15:46

Вы могли бы сделать это с dplyr или просто с базовыми функциями как таковыми:

species = merge(species, group, by.x=c("row.names"), by.y=c("V1"))

#Find the lowest values in each grouping
check = aggregate(species[,c("Otu000132", "Otu000144", "Otu000146", 
                   "Otu000147", "Otu000151", "Otu000162", "Otu000164", 
                   "Otu000174", "Otu000176", "Otu000186", "Otu000190")], 
                    by=list(species$V2), min)

#sum across the groupings
vars = apply(check, 2, function(x) sum(x))

#retain variables where sum > 1, indicating at least one grouping has full observations
vars = vars[vars!=0]

#extract the variable names
vars = names(vars)[-1]

#subset dataset to select variables identified above
out = species[vars]

out
#   Otu000132 Otu000144 Otu000151 Otu000176 Otu000190
#1          0       191         2         1         1
#2         56        14         9         9         1
#3         30        58         4         0         1
#4         52       137         1         1         0
#5          1       127         0         2         0
#6          4       222         4         5         5
#7         31        26         4         3         1
#8          4       175         2         3         2
#9         17       133         3         8         7
#10         9       107         0         2         0
#11         4        43         0         2         0

0

Источник

user4547796 04 окт '16 в 15:54

Другие вопросы по тегам r dplyr data-management

user6436545 04 окт '16 в 15:45 2016-10-04 15:45 · Accepted Answer · 2016-10-04 15:45

Это действительно может быть сделано с помощью dplyr, причем довольно простым способом. Как отмечали другие, "Otu000146" не соответствует описанным критериям и не будет включен в окончательный выбор столбцов.

library(dplyr)
library(tidyr)

df.species <- cbind(species, group = grouping[,2]) %>% # merge the grouping variable into the main data set
    gather(variable, value, -group) %>%  # gather the columns into 'long' format
    group_by(variable, group) %>% # group by column name and group
    summarize(keep = all(value != 0)) %>% # variables and groups where all values are non-zero
    ungroup %>% group_by(variable) %>%  # reset grouping
    summarize(keep = any(keep)) %>%  # variables where at least 1 group met the aforementioned criterion
    dplyr::filter(keep) # final list

   variable  keep
      <chr> <lgl>
1 Otu000132  TRUE
2 Otu000144  TRUE
3 Otu000151  TRUE
4 Otu000176  TRUE
5 Otu000190  TRUE

# retrieve only the matching columns
df.desired <- species[df.species$variable]

   Otu000132 Otu000144 Otu000151 Otu000176 Otu000190
30         0       191         2         1         1
31        56        14         9         9         1
32        30        58         4         0         1
33        52       137         1         1         0
34         1       127         0         2         0
35         4       222         4         5         5
36        31        26         4         3         1
37         4       175         2         3         2
38        17       133         3         8         7
39         9       107         0         2         0
40         4        43         0         2         0