Сравнить средства только для определенных групповых комбинаций
Данные выглядят следующим образом:
> data <- read.csv("data.csv")
> head(data)
ï..class.1 rev.1 class.2 rev.2
1 7 136.9900 1318 31.9900
2 1223 24.0984 1001 0.0000
3 1318 61.9900 6851 104.2655
4 1014 39.9800 1318 29.9800
5 7 32.9800 7 52.9900
6 291 107.6674 797 31.2741
Я хочу выполнить тест значимости, чтобы сравнить средства Rev.1 и Rev.2 ТОЛЬКО там, где группы class.1=class.2. Например, я пытаюсь сравнить все "7" классов, а затем сравнить все 1318 классов. Я пытался сделать это с ANOVA и TukeyHSD, но у меня проблемы только при сравнении групп, которые я хочу. Любое руководство будет с благодарностью!
2 ответа
Если вы хотите сравнить средства из двух групп, мне кажется, что t-тест - это хороший выбор. Вот вариант с использованием Tidyverse. Сначала я создал пример фрейма данных под названием dat
,
# Load package
library(tidyverse)
# Set seed
set.seed(12345)
# Create example data frame
dat <- expand.grid(class1 = 1:5, class2 = 1:5) %>%
slice(rep(1:n(), 5)) %>%
mutate(rev1 = rnorm(n()), rev2 = rnorm(n())) %>%
mutate(rev2 = sample(rev2, size = n(), replace = TRUE))
# View the head of data frame
dat
# # A tibble: 125 x 4
# class1 class2 rev1 rev2
# <int> <int> <dbl> <dbl>
# 1 1 1 0.586 0.548
# 2 2 1 0.709 0.868
# 3 3 1 -0.109 0.0784
# 4 4 1 -0.453 -0.567
# 5 5 1 0.606 -0.0767
# 6 1 2 -1.82 0.167
# 7 2 2 0.630 2.66
# 8 3 2 -0.276 0.831
# 9 4 2 -0.284 -1.70
# 10 5 2 -0.919 -2.13
# # ... with 115 more rows
После этого я отфильтровал фрейм данных, когда class1
== class2
сгруппировать данные по class1
и затем проведите t-тест, используя do
функция. В заключение,map_dbl
может получить значение p.value каждого t.test в новый фрейм данных.
dat2 <- dat %>%
filter(class1 == class2) %>%
group_by(class1) %>%
do(data_frame(class = .$class1[1],
TTest = list(t.test(.$rev1, .$rev2)))) %>%
mutate(PValue = map_dbl(TTest, "p.value"))
dat2
# # A tibble: 5 x 4
# # Groups: class1 [5]
# class1 class TTest PValue
# <int> <int> <list> <dbl>
# 1 1 1 <S3: htest> 0.700
# 2 2 2 <S3: htest> 0.381
# 3 3 3 <S3: htest> 0.859
# 4 4 4 <S3: htest> 0.0580
# 5 5 5 <S3: htest> 0.206
Если вы хотите получить доступ к результатам теста определенного класса, вы можете сделать следующее.
# Get the result of the first class
dat2$TTest[dat2$class == 1]
# [[1]]
#
# Welch Two Sample t-test
#
# data: .$rev1 and .$rev2
# t = 0.40118, df = 7.3956, p-value = 0.6996
# alternative hypothesis: true difference in means is not equal to 0
# 95 percent confidence interval:
# -0.9379329 1.3262368
# sample estimates:
# mean of x mean of y
# 0.6033533 0.4092013
Вот еще один вариант, мы также можем разбить фрейм данных на список и применить t-тест по списку.
# Split the data frame and conduct T-test
dat_list <- dat %>%
filter(class1 == class2) %>%
split(.$class1) %>%
map(~t.test(.$rev1, .$rev2))
# Get the result of the first class
dat_list$`1`
# Welch Two Sample t-test
#
# data: .$rev1 and .$rev2
# t = 0.40118, df = 7.3956, p-value = 0.6996
# alternative hypothesis: true difference in means is not equal to 0
# 95 percent confidence interval:
# -0.9379329 1.3262368
# sample estimates:
# mean of x mean of y
# 0.6033533 0.4092013
Похоже, данные строки не выровнены. Если это так, то данные могут быть разделены на две группы и расположены друг над другом. Имена столбцов будут следующими: class, class_id, rev. Оттуда вы можете отфильтровать интересующий class_id, а затем продолжить анализ.
library(dplyr)
library(tidyr)
# create some data
rev.1 <- rnorm(100, 200,50)
rev.2 <- rnorm(100, 180,35)
class.1 <- seq.int(from = 1000, by = 10, length.out = 100)
class.2 <- seq.int(from = 1000, by = 20, length.out = 100)
df <- tibble(class.1 = class.1, rev.1 = rev.1, class.2 = class.2, rev.2 = rev.2)
# split the data and stack
group_1 <- df %>%
select(class.1, rev.1) %>%
gather(key = class,
value = class_id,
-rev.1) %>%
rename(rev = rev.1)
group_2 <- df %>%
select(class.2, rev.2) %>%
gather(key = class,
value = class_id,
-rev.2) %>%
rename(rev = rev.2)
df_stacked <- rbind(group_1, group_2)
# filter for the class_id of interest
df_filtered <- df_stacked %>%
filter(class_id == 1020)