Настройка того, какие переменные отображаются по бокам и сверху выводов `corrplot` или`corrgram` в R
Предположим, у меня есть следующие данные:
> print(data)
date gdp unemp_rate cpi_index rpi_index var1 var2 var3 var4
1 8/31/2009 23:00:00 0.002000575 0.0 0.006539081 0.008466604 0.041601305 0.193230747 0.002260496 0.016428674
2 12/1/2009 0:00:00 0.003890642 0.0 0.007278347 0.011660448 0.012048193 0.022703903 0.003004489 0.015541372
3 3/1/2010 0:00:00 0.005088272 0.2 0.007439852 0.011065007 0.028750000 -0.222946928 0.002789741 0.015225019
4 5/31/2010 23:00:00 0.009771946 -0.1 0.012874890 0.019151847 0.015448707 0.137959240 0.000843318 0.003532365
5 8/31/2010 23:00:00 0.006467518 -0.1 0.002928654 0.004474273 0.016524217 0.119414245 0.001498776 0.006978383
6 12/1/2010 0:00:00 0.000247441 0.1 0.010128833 0.011135857 -0.021860987 -0.098281638 -0.002076772 0.013506623
7 3/1/2011 0:00:00 0.005362386 -0.1 0.014669842 0.017180617 -0.008997135 -0.104039862 0.000737306 0.005057618
8 5/31/2011 23:00:00 0.002284132 0.1 0.015393251 0.017323517 -0.003816573 0.108217236 0.001119267 0.006603190
9 8/31/2011 23:00:00 0.006963250 0.4 0.006089083 0.005534270 0.019330121 0.191878865 0.001567801 0.006242028
10 12/1/2011 0:00:00 -0.000147759 0.1 0.009548705 0.010160881 -0.010990888 -0.079442157 0.002012014 0.010126316
11 3/1/2012 0:00:00 0.000677327 -0.2 0.003463403 0.004191115 -0.000230322 -0.091365159 0.004426378 0.009523975
12 5/31/2012 23:00:00 -0.001779548 -0.2 0.008184866 0.010851419 0.012325059 0.013284528 0.010746497 0.013690636
13 8/31/2012 23:00:00 0.008329224 -0.1 0.002730592 0.003715937 0.017636684 0.072261170 0.001646379 0.018186905
14 12/1/2012 0:00:00 -0.003377040 -0.1 0.012079435 0.011929247 -0.006708783 -0.005000292 0.000966773 0.012595370
15 3/1/2013 0:00:00 0.005957449 0.0 0.004513875 0.005691057 -0.000787978 -0.137470909 0.000978465 0.015526088
16 5/31/2013 23:00:00 0.006427064 0.0 0.007228126 0.009296686 0.018419422 0.225735629 0.001693297 0.014078954
17 8/31/2013 23:00:00 0.007166400 -0.2 0.003024506 0.004805767 0.024889381 0.189354653 0.002163410 0.012134669
18 12/1/2013 0:00:00 0.004061822 -0.4 0.006102001 0.006377043 0.011171074 0.039039948 0.004515371 0.011188655
19 3/1/2014 0:00:00 0.006772674 -0.4 0.000928235 0.005544554 0.022735763 -0.085462281 0.004334033 0.021969445
20 5/31/2014 23:00:00 0.007517419 -0.5 0.007057474 0.008270973 0.039503209 0.093873476 0.004611893 0.015191039
21 8/31/2014 23:00:00 0.006551699 -0.3 0.000405809 0.003515625 0.039508032 0.085234886 0.004022014 0.011791335
Я хочу создать корреляционную матрицу / тепловую карту, где у меня есть var1, var2, var3 и var4 с левой стороны, в то время как gdp, inj_rate, cpi_index и rpi_index вверху.
Я набросал, что я имею в виду, используя Excel:
Я пытался использовать такие пакеты, как corrplot
а также corrgram
построить матрицу cprrelation, но до сих пор не имели успеха. Мне не нужно, чтобы вывод был точно таким же, как эскиз Excel - мне просто нужно, чтобы у меня были var1, var2, var3 и var4 с левой стороны, в то время как gdp, inj_rate, cpi_index и rpi_index вверху. Это не должно быть corrplot
или же corrgram
либо - любые другие пакеты, которые могут получить желаемый результат, прекрасно работают.
Любая помощь по этому вопросу будет принята с благодарностью.
Заранее спасибо!
Вот dput(data)
если вы хотите поместить это в R.
> dput(data)
structure(list(date = structure(c(16L, 1L, 6L, 11L, 17L, 2L,
7L, 12L, 18L, 3L, 8L, 13L, 19L, 4L, 9L, 14L, 20L, 5L, 10L, 15L,
21L), .Label = c("12/1/2009 0:00:00", "12/1/2010 0:00:00", "12/1/2011 0:00:00",
"12/1/2012 0:00:00", "12/1/2013 0:00:00", "3/1/2010 0:00:00",
"3/1/2011 0:00:00", "3/1/2012 0:00:00", "3/1/2013 0:00:00", "3/1/2014 0:00:00",
"5/31/2010 23:00:00", "5/31/2011 23:00:00", "5/31/2012 23:00:00",
"5/31/2013 23:00:00", "5/31/2014 23:00:00", "8/31/2009 23:00:00",
"8/31/2010 23:00:00", "8/31/2011 23:00:00", "8/31/2012 23:00:00",
"8/31/2013 23:00:00", "8/31/2014 23:00:00"), class = "factor"),
gdp = c(0.002000575, 0.003890642, 0.005088272, 0.009771946,
0.006467518, 0.000247441, 0.005362386, 0.002284132, 0.00696325,
-0.000147759, 0.000677327, -0.001779548, 0.008329224, -0.00337704,
0.005957449, 0.006427064, 0.0071664, 0.004061822, 0.006772674,
0.007517419, 0.006551699), unemp_rate = c(0, 0, 0.2, -0.1,
-0.1, 0.1, -0.1, 0.1, 0.4, 0.1, -0.2, -0.2, -0.1, -0.1, 0,
0, -0.2, -0.4, -0.4, -0.5, -0.3), cpi_index = c(0.006539081,
0.007278347, 0.007439852, 0.01287489, 0.002928654, 0.010128833,
0.014669842, 0.015393251, 0.006089083, 0.009548705, 0.003463403,
0.008184866, 0.002730592, 0.012079435, 0.004513875, 0.007228126,
0.003024506, 0.006102001, 0.000928235, 0.007057474, 0.000405809
), rpi_index = c(0.008466604, 0.011660448, 0.011065007, 0.019151847,
0.004474273, 0.011135857, 0.017180617, 0.017323517, 0.00553427,
0.010160881, 0.004191115, 0.010851419, 0.003715937, 0.011929247,
0.005691057, 0.009296686, 0.004805767, 0.006377043, 0.005544554,
0.008270973, 0.003515625), var1 = c(0.041601305, 0.012048193,
0.02875, 0.015448707, 0.016524217, -0.021860987, -0.008997135,
-0.003816573, 0.019330121, -0.010990888, -0.000230322, 0.012325059,
0.017636684, -0.006708783, -0.000787978, 0.018419422, 0.024889381,
0.011171074, 0.022735763, 0.039503209, 0.039508032), var2 = c(0.193230747,
0.022703903, -0.222946928, 0.13795924, 0.119414245, -0.098281638,
-0.104039862, 0.108217236, 0.191878865, -0.079442157, -0.091365159,
0.013284528, 0.07226117, -0.005000292, -0.137470909, 0.225735629,
0.189354653, 0.039039948, -0.085462281, 0.093873476, 0.085234886
), var3 = c(0.002260496, 0.003004489, 0.002789741, 0.000843318,
0.001498776, -0.002076772, 0.000737306, 0.001119267, 0.001567801,
0.002012014, 0.004426378, 0.010746497, 0.001646379, 0.000966773,
0.000978465, 0.001693297, 0.00216341, 0.004515371, 0.004334033,
0.004611893, 0.004022014), var4 = c(0.016428674, 0.015541372,
0.015225019, 0.003532365, 0.006978383, 0.013506623, 0.005057618,
0.00660319, 0.006242028, 0.010126316, 0.009523975, 0.013690636,
0.018186905, 0.01259537, 0.015526088, 0.014078954, 0.012134669,
0.011188655, 0.021969445, 0.015191039, 0.011791335)), .Names = c("date",
"gdp", "unemp_rate", "cpi_index", "rpi_index", "var1", "var2",
"var3", "var4"), class = "data.frame", row.names = c(NA, -21L
))
1 ответ
Вы можете попробовать heatmap.2
функция от gplots
пакет, который мне нравится для тепловых карт, и он даст что-то очень похожее на график, который вы ищете (я округлил до второй цифры для примера ниже. Используйте столько цифр, сколько хотите):
Некоторые манипуляции с данными изначально:
mycor <- cor(df[-1])
mycor <- round(mycor[5:8,1:4], 2)
mycor
#the data to plot
> mycor
gdp unemp_rate cpi_index rpi_index
var1 0.53 -0.31 -0.54 -0.39
var2 0.33 -0.03 -0.08 -0.10
var3 -0.18 -0.49 -0.31 -0.23
var4 -0.04 -0.29 -0.51 -0.45
И для сюжета:
#libraries needed
library(gplots)
library(RColorBrewer)
#create the colours you need. In your case red, white and again red.
#You can specify any combination you want.
#If you want to intensify white try the below with
#c('c('red','white','white','red') and see what happens
my_palette <- colorRampPalette(c('red','white','red'))
#use the function below to plot the heatmap according to mycor table
heatmap.2(mycor, cellnote= mycor, main='Correlation', notecol='black',
density.info='none', trace='none', col=my_palette, dendrogram='none',
Colv='NA', margin=c(10,6))
Это очень простая в использовании функция, вы можете легко указать нужные вам цвета, и есть множество аргументов, которые вы можете использовать, чтобы изменить вещи, если вы хотите что-то по-другому. Проверьте ?heatmap.2
,