параметр batchsize в pyspark dataframe.write () не работает

Я пытаюсь записать данные из pyspark в базу данных postgresql. Я использовал размер пакета 1000, а общее количество данных в фрейме данных pyspark равно 10000. Но вставка, выполняемая в postgresql, не выполняется партиями. Он вставляет данные по одному. Следующий код используется для записи в БД

        df.write.
            option('batchsize',1000).jdbc(
            url=database_connection.url,
            table=data_table,
            mode="append",
            properties=database_connection.properties
        )

Пожалуйста, предложите какое-нибудь решение. Работает ли эта опция для POSTGRESQL Db?

1 ответ

В зависимости от используемых ресурсов (ядер) загрузка данных выполняется параллельно с массовой загрузкой. пакет обрабатывается внутренне при его извлечении из таблицы HDFS, но не при записи в таблицу. эта ссылка может помочь вам понять это.

Другие вопросы по тегам