Почему эти данные CSV усложняются с графиком вискера ggplot2?

Я могу воспроизвести рабочий ggplot2 блокпост с данными теста, но не с данными CSV в R. Данные визуально с единой точкой о событиях (сон и бодрствование)

"Vars"    , "Sleep", "Awake"
"Average" , 7      , 12
"Min"     , 4      , 5
"Max"     , 10     , 15

Данные в реальной жизни о сне

"Vars"    , "Sleep1", "Sleep2", ...
"Average" , 7       , 5
"Min"     , 4       , 3
"Max"     , 10      , 8

Данные в реальной жизни об Awake

"Vars"    , "Awake1", "Awake2", ...
"Average" , 12      , 14
"Min"     , 10      , 7
"Max"     , 15      , 17

Код, в котором интегрированы данные

# only single point!
dat.m <- structure(list(Vars = structure(c(1L, 3L, 2L), .Label = c("Average ", 
"Max     ", "Min     "), class = "factor"), Sleep = c(7, 4, 10
), Awake = c(12L, 5L, 15L)), .Names = c("Vars", "Sleep", "Awake"
), class = "data.frame", row.names = c(NA, -3L))

library('ggplot2')    
# works:
str(mpg)
#mpg$class
#mpg$hwy
ggplot(mpg, aes(x = class, y = hwy)) +
    geom_boxplot()

# http://stackru.com/a/44031194/54964
m <- t(dat.m)    
dat.m <- data.frame(m[2:nrow(m),])
names(dat.m) <- m[1,]
dat.m$Vars <- rownames(m)[2:nrow(m)]
dat.m <- melt(dat.m, id.vars = "Vars")

# TODO complicates here although should not
ggplot(dat.m, aes(x = Vars, y = value, fill=variable)) + #
    geom_boxplot() 

Тестовые данные выводятся на рис. 1 и выводятся на рис. 2.

Рис. 1 Вывод тестовых данных, рис. 2 Вывод кода

введите описание изображения здесь введите описание изображения здесь

Предположение, сделанное ниже для квартилей:

Код

 # http://stackru.com/a/44043313/54964
 quartiles <- data.frame(Vars = c("Q1","Q3"), Sleep = c(6,8), 
               Awake = c(9,13))

Я хочу установить Q1 <- 0.25 * average а также Q3 <- 0.75 * average, Предположим, у вас есть любое количество основных полей (здесь Sleep а также Awake). Как вы можете запросить данные (здесь dat.m) получить min а также max каждого основного поля?

R: 3.3.3
ОС: Debian 8.7

1 ответ

Решение

Есть base R Функция для создания боксплотов с использованием квартилей: bxp(), но вам нужны 25-й, 50-й и 75-й процентили, а также нижний квартиль (Q1), медиана (Q2) и верхний квартиль (Q3).

Например:

bxp(list(stats = matrix(c( 4,6,7,9,10, 10,11,12,14,15), nrow = 5,
 ncol = 2), n = c(30,30), names = c("Sleep", "Awake")))

Теперь используя ваши данные: (отредактировано)

Позвольте нам использовать первый набор данных, который вы представили:

dat.m <- structure(list(Vars = structure(c(1L, 3L, 2L), .Label = c("Average ", 
"Max     ", "Min     "), class = "factor"), Sleep = c(7, 4, 10
), Awake = c(12L, 5L, 15L)), .Names = c("Vars", "Sleep", "Awake"
), class = "data.frame", row.names = c(NA, -3L))

> dat.m
      Vars Sleep Awake
1 Average      7    12
2 Min          4     5
3 Max         10    15


> str(dat.m)
'data.frame':   3 obs. of  3 variables:
 $ Vars : Factor w/ 3 levels "Average ","Max     ",..: 1 3 2
 $ Sleep: num  7 4 10
 $ Awake: int  12 5 15

По вашим данным, первый и третий квартили отсутствуют. Второй также необходим, который является медианой, но давайте предположим, что он равен среднему значению. Я предполагаю, что у вас есть все из них, например:

quartiles <- data.frame(Vars = c("Q1","Q3"), Sleep = c(6,8), 
                    Awake = c(9,13))

> str(quartiles)
'data.frame':   2 obs. of  3 variables:
 $ Vars : Factor w/ 2 levels "Q1","Q3": 1 2
 $ Sleep: num  6 8
 $ Awake: num  9 13


data <- rbind(dat.m ,quartiles)

      Vars Sleep Awake
1 Average      7    12
2 Min          4     5
3 Max         10    15
4 Q1           6     9
5 Q3           8    13

Затем сортировка ваших переменных:

library(dplyr)
## Disable this line if you want to use the universal approach
data <-  dplyr::arrange(data, Sleep, Awake)
## Enable the following for more universal approach
# data <- arrange_(data, .dots = as.list(strsplit(colnames(data)[2:ncol(data)], ', '))) 

bxp(list(stats = as.matrix(data[,2:3]), n = c(30,30), names = names(data[,2:3]))) # assuming n = 30.

С ggplot2

Сначала мы преобразуем набор данных из "широкого" в "длинный" формат с помощью reshape2::melt(),

library(reshape2)
library(ggplot2)
(data2 <- melt(data))

       Vars variable value
1  Min         Sleep     4
2  Q1          Sleep     6
3  Average     Sleep     7
4  Q3          Sleep     8
5  Max         Sleep    10
6  Min         Awake     5
7  Q1          Awake     9
8  Average     Awake    12
9  Q3          Awake    13
10 Max         Awake    15

Затем:

ggplot(data2, aes(x = variable, y = value)) +
  geom_boxplot()

Вы можете найти интересные эти статьи:

  1. Важные моменты: Визуализация образцов на графиках ( http://www.nature.com/nmeth/journal/v11/n2/full/nmeth.2813.html)
  2. Сюжет коробки: простой визуальный метод для интерпретации данных ( http://annals.org/aim/article/703149/box-plot-simple-visual-method-interpret-data)
  3. Вариации коробочных участков ( http://amstat.tandfonline.com/doi/abs/10.1080/00031305.1978.10479236)
Другие вопросы по тегам