параметр batchsize в pyspark dataframe.write () не работает

Question

параметр batchsize в pyspark dataframe.write () не работает

Я пытаюсь записать данные из pyspark в базу данных postgresql. Я использовал размер пакета 1000, а общее количество данных в фрейме данных pyspark равно 10000. Но вставка, выполняемая в postgresql, не выполняется партиями. Он вставляет данные по одному. Следующий код используется для записи в БД

        df.write.
            option('batchsize',1000).jdbc(
            url=database_connection.url,
            table=data_table,
            mode="append",
            properties=database_connection.properties
        )

Пожалуйста, предложите какое-нибудь решение. Работает ли эта опция для POSTGRESQL Db?

0

postgresql pyspark batchsize

Источник

user7471066 11 ноя '19 в 12:56

1 ответ

Другие вопросы по тегам postgresql pyspark batchsize

user11368643 11 ноя '19 в 14:07 2019-11-11 14:07 · Answer 1 · 2019-11-11 14:07

В зависимости от используемых ресурсов (ядер) загрузка данных выполняется параллельно с массовой загрузкой. пакет обрабатывается внутренне при его извлечении из таблицы HDFS, но не при записи в таблицу. эта ссылка может помочь вам понять это.