Разработка анализа "статистика-Bootstrap" в R

Мое намерение состоит в том, чтобы придумать загрузочный анализ сложной структуры данных.

Данные следующие:

structure(list(pos1 = c(5, 15, 25, 40, 80, 5, 18, 22, 38, 84, 
5, 16, 50, 92, 31, 50, 20, 30, 50, 70, 27, 50, 60, 50, 90, 20, 
40, 54, 65, 78, 7, 17, 27, 42, 85, 10, 19, 25, 39, 88, 10, 19, 
55, 93, 32, 54, 22, 35, 52, 72, 29, 55, 65, 55, 95, 22, 46, 57, 
67, 79), pos2 = c(10, 17, 30, 42, 90, 10, 20, 24, 42, 87, 10, 
19, 52, 100, 40, 70, 25, 32, 60, 90, 30, 60, 71, 60, 100, 25, 
50, 50, 69, 90, 19, 27, 39, 49, 99, 20, 29, 30, 49, 92, 20, 29, 
59, 100, 48, 76, 30, 39, 67, 98, 36, 68, 76, 65, 100, 30, 55, 
55, 70, 100), chr = c(1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 1, 1, 1, 
1, 1, 2, 2, 2, 2, 2, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 1, 1, 1, 1, 
1, 2, 2, 2, 2, 2, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 1, 1, 1, 1, 1, 
2, 2, 2, 2, 2), ind = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 
1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 3L, 3L, 3L, 
3L, 3L, 3L, 3L, 3L, 3L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 4L, 4L, 4L, 
4L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 6L, 6L, 6L, 6L, 6L, 
6L, 6L, 6L, 6L, 6L), .Label = c("A", "B", "C", "D", "E", "F"), class ="factor")), .Names = c("pos1", 
"pos2", "chr", "ind"), row.names = c(NA, -60L), class = "data.frame")

Данные $ pos1 и данные $ pos2 разграничивают определенную последовательность в геноме определенной хромосомы (данные $ chr). Для этого примера я просто ввел две хромосомы. data $ ind - столбец для индивидуума, поэтому у каждого индивида есть разные pos1 и pos2 в обеих хромосомах.

Процесс, которым я хочу следовать, заключается в следующем. 1. Во-первых, из данных я хочу получить n (для этого случая 10 будет достаточно) случайных выборок из 3 человек (со всеми их pos1 и pos2 для двух хромосом). Для этого вот этот кусок кода:

rohis <- function(dat, ind, n) {
ind <- enquo(ind)
dat %>%
filter(UQ(ind) %in% sample(unique(UQ(ind)), n)) %>%
slice(sample(row_number()))
}
rohis(data, ind, 3)
  1. Затем, используя все сгенерированные случайные выборки, я намерен получить оценки начальной загрузки каждой из последовательностей, разделенных pos1 и pos2. Какова достоверность определенной последовательности, ограниченной pos1 pos2? Есть два очень важных совета. Во-первых, это должно быть сделано независимо для последовательностей в двух хромосомах. Во-вторых, две перекрывающиеся последовательности должны считаться одинаковыми.

Я надеюсь, что вы можете помочь мне, потому что я не знаю, как я должен начать

0 ответов

Другие вопросы по тегам