Сравнить средства только для определенных групповых комбинаций

Question

Сравнить средства только для определенных групповых комбинаций

Данные выглядят следующим образом:

> data <- read.csv("data.csv")
> head(data)
  ï..class.1    rev.1 class.2    rev.2
1          7 136.9900    1318  31.9900
2       1223  24.0984    1001   0.0000
3       1318  61.9900    6851 104.2655
4       1014  39.9800    1318  29.9800
5          7  32.9800    7     52.9900
6        291 107.6674     797  31.2741

Я хочу выполнить тест значимости, чтобы сравнить средства Rev.1 и Rev.2 ТОЛЬКО там, где группы class.1=class.2. Например, я пытаюсь сравнить все "7" классов, а затем сравнить все 1318 классов. Я пытался сделать это с ANOVA и TukeyHSD, но у меня проблемы только при сравнении групп, которые я хочу. Любое руководство будет с благодарностью!

0

r statistics anova significance tukeyhsd

Источник

user7111010 28 дек '17 в 13:48

2 ответа

Другие вопросы по тегам r statistics anova significance tukeyhsd

user7669809 28 дек '17 в 15:36 2017-12-28 15:36 · Answer 1 · 2017-12-28 15:36

Если вы хотите сравнить средства из двух групп, мне кажется, что t-тест - это хороший выбор. Вот вариант с использованием Tidyverse. Сначала я создал пример фрейма данных под названием dat,

# Load package
library(tidyverse)

# Set seed
set.seed(12345)

# Create example data frame
dat <- expand.grid(class1 = 1:5, class2 = 1:5) %>%
  slice(rep(1:n(), 5)) %>%
  mutate(rev1 = rnorm(n()), rev2 = rnorm(n())) %>%
  mutate(rev2 = sample(rev2, size = n(), replace = TRUE))
# View the head of data frame
dat
# # A tibble: 125 x 4
#    class1 class2   rev1    rev2
#     <int>  <int>  <dbl>   <dbl>
#  1      1      1  0.586  0.548 
#  2      2      1  0.709  0.868 
#  3      3      1 -0.109  0.0784
#  4      4      1 -0.453 -0.567 
#  5      5      1  0.606 -0.0767
#  6      1      2 -1.82   0.167 
#  7      2      2  0.630  2.66  
#  8      3      2 -0.276  0.831 
#  9      4      2 -0.284 -1.70  
# 10      5      2 -0.919 -2.13  
# # ... with 115 more rows

После этого я отфильтровал фрейм данных, когда class1 == class2сгруппировать данные по class1и затем проведите t-тест, используя do функция. В заключение,map_dbl может получить значение p.value каждого t.test в новый фрейм данных.

dat2 <- dat %>%
  filter(class1 == class2) %>%
  group_by(class1) %>%
  do(data_frame(class = .$class1[1],
                TTest = list(t.test(.$rev1, .$rev2)))) %>%
  mutate(PValue = map_dbl(TTest, "p.value"))
dat2
# # A tibble: 5 x 4
# # Groups: class1 [5]
#   class1 class TTest       PValue
#    <int> <int> <list>       <dbl>
# 1      1     1 <S3: htest> 0.700 
# 2      2     2 <S3: htest> 0.381 
# 3      3     3 <S3: htest> 0.859 
# 4      4     4 <S3: htest> 0.0580
# 5      5     5 <S3: htest> 0.206

Если вы хотите получить доступ к результатам теста определенного класса, вы можете сделать следующее.

# Get the result of the first class
dat2$TTest[dat2$class == 1]
# [[1]]
# 
# Welch Two Sample t-test
# 
# data:  .$rev1 and .$rev2
# t = 0.40118, df = 7.3956, p-value = 0.6996
# alternative hypothesis: true difference in means is not equal to 0
# 95 percent confidence interval:
#   -0.9379329  1.3262368
# sample estimates:
# mean of x mean of y 
# 0.6033533 0.4092013

Вот еще один вариант, мы также можем разбить фрейм данных на список и применить t-тест по списку.

# Split the data frame and conduct T-test
dat_list <- dat %>%
  filter(class1 == class2) %>%
  split(.$class1) %>%
  map(~t.test(.$rev1, .$rev2))

# Get the result of the first class
dat_list$`1`

# Welch Two Sample t-test
# 
# data:  .$rev1 and .$rev2
# t = 0.40118, df = 7.3956, p-value = 0.6996
# alternative hypothesis: true difference in means is not equal to 0
# 95 percent confidence interval:
#   -0.9379329  1.3262368
# sample estimates:
# mean of x mean of y 
# 0.6033533 0.4092013

user9134184 28 дек '17 в 15:07 2017-12-28 15:07 · Answer 2 · 2017-12-28 15:07

Похоже, данные строки не выровнены. Если это так, то данные могут быть разделены на две группы и расположены друг над другом. Имена столбцов будут следующими: class, class_id, rev. Оттуда вы можете отфильтровать интересующий class_id, а затем продолжить анализ.

library(dplyr)
library(tidyr)

# create some data
rev.1 <- rnorm(100, 200,50)
rev.2 <- rnorm(100, 180,35)

class.1 <- seq.int(from = 1000, by = 10, length.out = 100)
class.2 <- seq.int(from = 1000, by = 20, length.out = 100)

df <- tibble(class.1 = class.1, rev.1 = rev.1, class.2 = class.2, rev.2 = rev.2)


# split the data and stack
group_1 <- df %>%
  select(class.1, rev.1) %>%
  gather(key = class,
         value = class_id,
         -rev.1) %>%
  rename(rev = rev.1)

group_2 <- df %>%
  select(class.2, rev.2) %>%
  gather(key = class,
         value = class_id,
         -rev.2) %>%
  rename(rev = rev.2)

df_stacked <- rbind(group_1, group_2)

# filter for the class_id of interest
df_filtered <- df_stacked %>%
  filter(class_id == 1020)