Использование памяти PySpark в CDSW / CDP
Если я создам фрейм данных pyspark, как показано ниже, будет ли этот фрейм данных pyspark занимать память CDSW (например, фрейм данных pandas)? или память от CDP заберет?
У меня проблема с памятью при создании большого фрейма данных pyspark, как показано ниже.
dm = DenseMatrix(300, 10000000, np.zeros(300*10000000))
sdf = spark.createDataFrame(dm.toArray().tolist(),[])
! Engine exhausted available memory, consider a larger engine size.
x Engine exited with status 137.