параметр batchsize в pyspark dataframe.write () не работает
Я пытаюсь записать данные из pyspark в базу данных postgresql. Я использовал размер пакета 1000, а общее количество данных в фрейме данных pyspark равно 10000. Но вставка, выполняемая в postgresql, не выполняется партиями. Он вставляет данные по одному. Следующий код используется для записи в БД
df.write.
option('batchsize',1000).jdbc(
url=database_connection.url,
table=data_table,
mode="append",
properties=database_connection.properties
)
Пожалуйста, предложите какое-нибудь решение. Работает ли эта опция для POSTGRESQL Db?
1 ответ
В зависимости от используемых ресурсов (ядер) загрузка данных выполняется параллельно с массовой загрузкой. пакет обрабатывается внутренне при его извлечении из таблицы HDFS, но не при записи в таблицу. эта ссылка может помочь вам понять это.