R: DBconnect очень медленный - Wh
У меня есть файл *.csv, содержащий столбцовые числа и строки (13 ГБ на диске), который я импортировал в новую базу данных duckdb (или sqlite) и сохранил, чтобы получить к нему доступ позже в R. Но повторное подключение дублирует его и очень медленно, это неправильно?
Изнутри R я делаю следующее:
library(duckdb)
library(dplyr)
library(DBI)
#Create the DB
con <- dbConnect(duckdb::duckdb(), "FINAL_data.duckdb")
#Read in the csv
duckdb_read_csv(con, "data", "FINAL_data_new.csv")
Затем я закрываю R и перезапускаю его, чтобы проверить, сработало ли оно:
# Это очень медленно (около 10 минут), потому что похоже, что он снова где-то записывает БД. Но почему?
con <- dbConnect(duckdb::duckdb(), "FINAL_data.duckdb")
NB. Я добавил sqlite в качестве тега, потому что не думаю, что это характерно для duckdb
1 ответ
Решение
Замедление, которое вы испытали, связано с контрольной точкой базы данных при запуске. Это уже было исправлено в основной ветке.