SQL-запрос данных кадров внутри списка
Учитывая данные кадры
df1 <- data.frame(CustomerId=c(1:6),Product=c(rep("Toaster",3),rep("Radio",3)))
df2 <- data.frame(CustomerId=c(2,4,6),State=c(rep("Alabama",2),rep("Ohio",1)))
хранятся в списке
dflist <- c(df1,df2)
Как запустить sqldf запросы (объединения) на этих фреймах данных?
Неудачные попытки:
test <- sqldf("select a.CustomerId, a.Product, b.State from dflist[1] a
inner join dflist[2] b on b.id = a.id")
test <- sqldf("select a.CustomerId, a.Product, b.State from dflist$df1 a
inner join dflist$df2 b on b.CustomerId = a.CustomerId")
1 ответ
Решение
Если вы копируете свои data.frames из списка в новую среду, вы можете использовать envir
аргумент sqldf
или назвав элементы списка, и используя with
,
Обратите внимание на пару вещей:
- я создаю
dflist
с помощьюlist
неc
,
обратите внимание на разницу
str(c(df1,df2))
##List of 4
## $ CustomerId: int [1:6] 1 2 3 4 5 6
## $ Product : Factor w/ 2 levels "Radio","Toaster": 2 2 2 1 1 1
## $ CustomerId: num [1:3] 2 4 6
## $ State : Factor w/ 2 levels "Alabama","Ohio": 1 1 2
str(list(df1,df2))
##List of 2
## $ :'data.frame': 6 obs. of 2 variables:
## ..$ CustomerId: int [1:6] 1 2 3 4 5 6
## ..$ Product : Factor w/ 2 levels "Radio","Toaster": 2 2 2 1 1 1
## $ :'data.frame': 3 obs. of 2 variables:
## ..$ CustomerId: num [1:3] 2 4 6
## ..$ State : Factor w/ 2 levels "Alabama","Ohio": 1 1 2
- Я настроил запросы SQL для отражения имен в рамках data.frames (согласно вашему второму подходу)
названные данные
dflist <- list(df1,df2)
names(dflist) <- c('df1','df2')
Создать новую среду для работы в
# create a new environment
e <- new.env()
# assign the elements of dflist to this new environment
for(.x in names(dflist)){
assign(value = dflist[[.x]], x=.x, envir = e)
}
# this could also be done using mapply / lapply
# eg
# invisible(mapply(assign, value = dflist, x = names(dflist), MoreArgs =list(envir = e)))
# run the sql query
sqldf("select a.CustomerId, a.Product, b.State from df1 a
inner join df2 b on b.CustomerId = a.CustomerId", envir = e)
## CustomerId Product State
## 1 2 Toaster Alabama
## 2 4 Radio Alabama
## 3 6 Radio Ohio
Более простой подход с использованием with
Вы могли бы просто использовать with
который оценивает локально (важно, чтобы dflist был именованным списком здесь)
# this is far simpler!!
with(dflist,sqldf("select a.CustomerId, a.Product, b.State from df1 a
inner join df2 b on b.CustomerId = a.CustomerId"))
Еще один простой подход с использованием proto
- Благодаря @G.Grothendieck (см. Комментарии
Это использует proto
пакет, который загружен sqldf
dflist <- list(a = df1, b = df2)
sqldf( "select a.CustomerId, a.Product, b.State from df1 a
inner join df2 b on b.CustomerId = a.CustomerId",
envir = as.proto(dflist))
Использование data.table
Или вы могли бы использовать data.table
который дает sql-like
подходы (см. FAQ 2.16)
library(data.table)
dflist <- list(data.table(df1),data.table(df2))
names(dflist) <- c('df1','df2')
invisible(lapply(dflist, setkeyv, 'CustomerId'))
with(dflist, df1[df2])
## CustomerId Product State
## 1: 2 Toaster Alabama
## 2: 4 Radio Alabama
## 3: 6 Radio Ohio