Средние значения точечного набора данных для набора данных сетки
Я относительно новичок в ggplot, поэтому, пожалуйста, прости меня, если некоторые из моих проблем действительно просты или не решаемы вообще.
Я пытаюсь создать "Тепловую карту" страны, где заполнение фигуры происходит непрерывно. Кроме того, у меня есть форма страны, как .RData
, Я использовал скрипт Хэдли Уикхема, чтобы преобразовать мои данные SpatialPolygon во фрейм данных. Длинные и последние данные моего фрейма данных теперь выглядят так
head(my_df)
long lat group
6.527187 51.87055 0.1
6.531768 51.87206 0.1
6.541202 51.87656 0.1
6.553331 51.88271 0.1
Эти длинные / лат данные рисуют контур Германии. Остальная часть фрейма данных здесь опущена, так как я думаю, что она не нужна. У меня также есть второй кадр данных значений для определенных длинных / латовых точек. Это выглядит так
my_fixed_points
long lat value
12.817 48.917 0.04
8.533 52.017 0.034
8.683 50.117 0.02
7.217 49.483 0.0542
Теперь я хотел бы покрасить каждую точку карты в соответствии со средним значением по всем фиксированным точкам, которые находятся на определенном расстоянии от этой точки. Таким образом, я получил бы (почти) непрерывную окраску всей карты страны. То, что у меня есть, так это карта страны, построенная с помощью ggplot2.
ggplot(my_df,aes(long,lat)) + geom_polygon(aes(group=group), fill="white") +
geom_path(color="white",aes(group=group)) + coord_equal()
Моей первой идеей было создать точки, которые лежат на нарисованной карте, а затем вычислить значение для каждой сгенерированной точки. my_generated_point
вот так
value_vector <- subset(my_fixed_points,
spDistsN1(cbind(my_fixed_points$long, my_fixed_points$lat),
c(my_generated_point$long, my_generated_point$lat), longlat=TRUE) < 50,
select = value)
point_value <- mean(value_vector)
Я не нашел способ получить эти очки, хотя. И как со всей проблемой, я даже не знаю, возможно ли решить этот путь. Мой вопрос сейчас заключается в том, существует ли способ получить эти точки и / или есть ли другой способ прийти к решению.
Решение
Благодаря Полу я почти получил то, что хотел. Вот пример с примерами данных для Нидерландов.
library(ggplot2)
library(sp)
library(automap)
library(rgdal)
library(scales)
#get the spatial data for the Netherlands
con <- url("http://gadm.org/data/rda/NLD_adm0.RData")
print(load(con))
close(con)
#transform them into the right format for autoKrige
gadm_t <- spTransform(gadm, CRS=CRS("+proj=merc +ellps=WGS84"))
#generate some random values that serve as fixed points
value_points <- spsample(gadm_t, type="stratified", n = 200)
values <- data.frame(value = rnorm(dim(coordinates(value_points))[1], 0 ,1))
value_df <- SpatialPointsDataFrame(value_points, values)
#generate a grid that can be estimated from the fixed points
grd = spsample(gadm_t, type = "regular", n = 4000)
kr <- autoKrige(value~1, value_df, grd)
dat = as.data.frame(kr$krige_output)
#draw the generated grid with the underlying map
ggplot(gadm_t,aes(long,lat)) + geom_polygon(aes(group=group), fill="white") + geom_path(color="white",aes(group=group)) + coord_equal() +
geom_tile(aes(x = x1, y = x2, fill = var1.pred), data = dat) + scale_fill_continuous(low = "white", high = muted("orange"), name = "value")
2 ответа
Я думаю, что вы хотите что-то в этом роде. Я предсказываю, что этот доморощенный процесс будет ужасно неэффективным для больших наборов данных, но он работает с небольшим примером набора данных. Я бы посмотрел на плотности ядра и, возможно, raster
пакет. Но, может быть, это хорошо вам подходит...
В следующем фрагменте кода рассчитывается среднее значение концентрации кадмия в сетке точек, наложенной на исходный набор точечных данных. Учитываются только точки ближе 1000 м.
library(sp)
library(ggplot2)
loadMeuse()
# Generate a grid to sample on
bb = bbox(meuse)
grd = spsample(meuse, type = "regular", n = 4000)
# Come up with mean cadmium value
# of all points < 1000m.
mn_value = sapply(1:length(grd), function(pt) {
d = spDistsN1(meuse, grd[pt,])
return(mean(meuse[d < 1000,]$cadmium))
})
# Make a new object
dat = data.frame(coordinates(grd), mn_value)
ggplot(aes(x = x1, y = x2, fill = mn_value), data = dat) +
geom_tile() +
scale_fill_continuous(low = "white", high = muted("blue")) +
coord_equal()
что приводит к следующему изображению:
Альтернативный подход заключается в использовании алгоритма интерполяции. Одним из примеров является кригинг. Это довольно легко с помощью пакета automap (обратите внимание на саморекламу:), я написал пакет):
library(automap)
kr = autoKrige(cadmium~1, meuse, meuse.grid)
dat = as.data.frame(kr$krige_output)
ggplot(aes(x = x, y = y, fill = var1.pred), data = dat) +
geom_tile() +
scale_fill_continuous(low = "white", high = muted("blue")) +
coord_equal()
что приводит к следующему изображению:
Однако, не зная, какова ваша цель с этой картой, мне трудно понять, чего именно вы хотите.