Разработка анализа "статистика-Bootstrap" в R
Мое намерение состоит в том, чтобы придумать загрузочный анализ сложной структуры данных.
Данные следующие:
structure(list(pos1 = c(5, 15, 25, 40, 80, 5, 18, 22, 38, 84,
5, 16, 50, 92, 31, 50, 20, 30, 50, 70, 27, 50, 60, 50, 90, 20,
40, 54, 65, 78, 7, 17, 27, 42, 85, 10, 19, 25, 39, 88, 10, 19,
55, 93, 32, 54, 22, 35, 52, 72, 29, 55, 65, 55, 95, 22, 46, 57,
67, 79), pos2 = c(10, 17, 30, 42, 90, 10, 20, 24, 42, 87, 10,
19, 52, 100, 40, 70, 25, 32, 60, 90, 30, 60, 71, 60, 100, 25,
50, 50, 69, 90, 19, 27, 39, 49, 99, 20, 29, 30, 49, 92, 20, 29,
59, 100, 48, 76, 30, 39, 67, 98, 36, 68, 76, 65, 100, 30, 55,
55, 70, 100), chr = c(1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 1, 1, 1,
1, 1, 2, 2, 2, 2, 2, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 1, 1, 1, 1,
1, 2, 2, 2, 2, 2, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 1, 1, 1, 1, 1,
2, 2, 2, 2, 2), ind = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L,
1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 3L, 3L, 3L,
3L, 3L, 3L, 3L, 3L, 3L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 4L, 4L, 4L,
4L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 6L, 6L, 6L, 6L, 6L,
6L, 6L, 6L, 6L, 6L), .Label = c("A", "B", "C", "D", "E", "F"), class ="factor")), .Names = c("pos1",
"pos2", "chr", "ind"), row.names = c(NA, -60L), class = "data.frame")
Данные $ pos1 и данные $ pos2 разграничивают определенную последовательность в геноме определенной хромосомы (данные $ chr). Для этого примера я просто ввел две хромосомы. data $ ind - столбец для индивидуума, поэтому у каждого индивида есть разные pos1 и pos2 в обеих хромосомах.
Процесс, которым я хочу следовать, заключается в следующем. 1. Во-первых, из данных я хочу получить n (для этого случая 10 будет достаточно) случайных выборок из 3 человек (со всеми их pos1 и pos2 для двух хромосом). Для этого вот этот кусок кода:
rohis <- function(dat, ind, n) {
ind <- enquo(ind)
dat %>%
filter(UQ(ind) %in% sample(unique(UQ(ind)), n)) %>%
slice(sample(row_number()))
}
rohis(data, ind, 3)
- Затем, используя все сгенерированные случайные выборки, я намерен получить оценки начальной загрузки каждой из последовательностей, разделенных pos1 и pos2. Какова достоверность определенной последовательности, ограниченной pos1 pos2? Есть два очень важных совета. Во-первых, это должно быть сделано независимо для последовательностей в двух хромосомах. Во-вторых, две перекрывающиеся последовательности должны считаться одинаковыми.
Я надеюсь, что вы можете помочь мне, потому что я не знаю, как я должен начать