Библиотека clojure sqlkorma: ошибка нехватки памяти
Я делаю то, что мне показалось довольно простой задачей: выполнить SQL-запрос (более 65 тыс. Строк данных), используя библиотеку sqlkorma ( http://sqlkorma.com/), и для каждой строки каким-то образом преобразовать его, а затем запись в файл CSV. На самом деле я не думаю, что строки размером в 65 КБ настолько велики, учитывая, что у меня есть ноутбук на 8 ГБ, но я также предполагал, что набор результатов sql будет лениво извлекаться, и поэтому все это никогда не будет храниться в памяти одновременно. Поэтому я был очень удивлен, когда закончил с трассировкой стека:
Exception in thread "main" java.lang.OutOfMemoryError: Java heap space
at clojure.lang.PersistentHashMap$BitmapIndexedNode.assoc(PersistentHashMap.java:777)
at clojure.lang.PersistentHashMap.createNode(PersistentHashMap.java:1101)
at clojure.lang.PersistentHashMap.access$600(PersistentHashMap.java:28)
at clojure.lang.PersistentHashMap$BitmapIndexedNode.assoc(PersistentHashMap.java:749)
at clojure.lang.PersistentHashMap$TransientHashMap.doAssoc(PersistentHashMap.java:269)
at clojure.lang.ATransientMap.assoc(ATransientMap.java:64)
at clojure.lang.PersistentHashMap.create(PersistentHashMap.java:56)
at clojure.lang.PersistentHashMap.create(PersistentHashMap.java:100)
at clojure.lang.PersistentArrayMap.createHT(PersistentArrayMap.java:61)
at clojure.lang.PersistentArrayMap.assoc(PersistentArrayMap.java:201)
at clojure.lang.PersistentArrayMap.assoc(PersistentArrayMap.java:29)
at clojure.lang.RT.assoc(RT.java:702)
at clojure.core$assoc.invoke(core.clj:187)
at clojure.core$zipmap.invoke(core.clj:2715)
at clojure.java.jdbc$resultset_seq$thisfn__204.invoke(jdbc.clj:243)
at clojure.java.jdbc$resultset_seq$thisfn__204$fn__205.invoke(jdbc.clj:243)
at clojure.lang.LazySeq.sval(LazySeq.java:42)
at clojure.lang.LazySeq.seq(LazySeq.java:60)
at clojure.lang.Cons.next(Cons.java:39)
at clojure.lang.PersistentVector.create(PersistentVector.java:51)
at clojure.lang.LazilyPersistentVector.create(LazilyPersistentVector.java:31)
at clojure.core$vec.invoke(core.clj:354)
at korma.db$exec_sql$fn__343.invoke(db.clj:203)
at clojure.java.jdbc$with_query_results_STAR_.invoke(jdbc.clj:669)
at korma.db$exec_sql.invoke(db.clj:202)
at korma.db$do_query$fn__351.invoke(db.clj:225)
at clojure.java.jdbc$with_connection_STAR_.invoke(jdbc.clj:309)
at korma.db$do_query.invoke(db.clj:224)
at korma.core$exec.invoke(core.clj:474)
at db$query_db.invoke(db.clj:23)
at main$_main.doInvoke(main.clj:32)
at clojure.lang.RestFn.applyTo(RestFn.java:137)
Насколько я могу судить из стека, он не вышел за пределы кода запроса (это означает, что он вообще не достиг моего преобразования / записи в код CSV). Если это имеет значение, мой sql довольно прост, в основном SELECT * FROM my_table WHERE SOME_ID IS NOT NULL AND ROWNUM < 65000 ORDER BY some_id ASC
, Это оракул (для объяснения выше), но я не думаю, что это имеет значение.
РЕДАКТИРОВАТЬ:
Пример кода:
(defmacro query-and-print [q] `(do (dry-run ~q) ~q))
(defn query-db []
(query-and-print
(select my_table
(where (and (not= :MY_ID "BAD DATA")
(not= :MY_ID nil)
(raw (str "rownum < " rows))))
(order :MY_ID :asc))))
; args contains rows 65000, and configure-app sets up the jdbc
; connection string, and sets a var with rows value
(defn -main [& args]
(when (configure-app args)
(let [results (query-db)
dedup (dedup-with-merge results)]
(println "Result size: " (count results))
(println "Dedup size: " (count dedup))
(to-csv "target/out.csv" (transform-data dedup)))))
2 ответа
clojure.java.sql
создает ленивые последовательности:
(defn resultset-seq
"Creates and returns a lazy sequence of maps corresponding to
the rows in the java.sql.ResultSet rs. Based on clojure.core/resultset-seq
but it respects the current naming strategy. Duplicate column names are
made unique by appending _N before applying the naming strategy (where
N is a unique integer)."
[^ResultSet rs]
(let [rsmeta (.getMetaData rs)
idxs (range 1 (inc (.getColumnCount rsmeta)))
keys (->> idxs
(map (fn [^Integer i] (.getColumnLabel rsmeta i)))
make-cols-unique
(map (comp keyword *as-key*)))
row-values (fn [] (map (fn [^Integer i] (.getObject rs i)) idxs))
rows (fn thisfn []
(when (.next rs)
(cons (zipmap keys (row-values)) (lazy-seq (thisfn)))))]
(rows)))
Корма полностью осознает последовательность, опуская каждую строку в вектор:
(defn- exec-sql [{:keys [results sql-str params]}]
(try
(case results
:results (jdbc/with-query-results rs (apply vector sql-str params)
(vec rs))
:keys (jdbc/do-prepared-return-keys sql-str params)
(jdbc/do-prepared sql-str params))
(catch Exception e
(handle-exception e sql-str params))))
Кроме with-lazy-results
Находясь на https://github.com/korma/Korma/pull/66, вы можете просто увеличить размер кучи, доступной для вашей JVM, установив соответствующий флаг. JVM не разрешается использовать всю свободную память на вашем компьютере; они строго ограничены суммой, которую вы им сообщаете, им разрешено использовать.
Один из способов сделать это - установить :jvm-opts ["-Xmx4g"]
в вашем project.clj
файл. (Отрегулируйте точный размер кучи по мере необходимости.) Другой способ сделать что-то вроде:
export JAVA_OPTS=-Xmx:4g
lein repl # or whatever lanuches your Clojure process
with-lazy-results
Маршрут лучше в том смысле, что вы можете работать с результирующим набором любого размера, но он не объединен с основной версией Korma и требует некоторого обновления для работы с последними версиями. В любом случае, полезно знать, как настроить разрешенный размер кучи JVM.