R: DBconnect очень медленный - Wh

У меня есть файл *.csv, содержащий столбцовые числа и строки (13 ГБ на диске), который я импортировал в новую базу данных duckdb (или sqlite) и сохранил, чтобы получить к нему доступ позже в R. Но повторное подключение дублирует его и очень медленно, это неправильно?

Изнутри R я делаю следующее:

      library(duckdb)
library(dplyr)
library(DBI)

#Create the DB
con <- dbConnect(duckdb::duckdb(), "FINAL_data.duckdb")

#Read in the csv
duckdb_read_csv(con, "data", "FINAL_data_new.csv") 

Затем я закрываю R и перезапускаю его, чтобы проверить, сработало ли оно:

# Это очень медленно (около 10 минут), потому что похоже, что он снова где-то записывает БД. Но почему?

      con <- dbConnect(duckdb::duckdb(), "FINAL_data.duckdb")

NB. Я добавил sqlite в качестве тега, потому что не думаю, что это характерно для duckdb

1 ответ

Решение

Замедление, которое вы испытали, связано с контрольной точкой базы данных при запуске. Это уже было исправлено в основной ветке.

Другие вопросы по тегам