Как оценить реальный размер датафрейма в pyspark?

Как определить размер кадра данных?

Сейчас я оцениваю реальный размер кадра данных следующим образом:

headers_size = key for key in df.first().asDict()
rows_size = df.map(lambda row: len(value for key, value in row.asDict()).sum()
total_size = headers_size + rows_size

Это слишком медленно, и я ищу лучший путь.

2 ответа

В настоящее время я использую следующий подход, не уверен, что это лучший способ

df.persist(StorageLevel.Memory) df.count()

В пользовательском интерфейсе spark-web на вкладке "Хранилище" вы можете проверить размер, который отображается в мегабайтах, а затем я отключаю, чтобы очистить память.

df.unpersist()

Хороший пост от Тамаса Сзуроми http://metricbrew.com/how-to-estimate-rdd-or-dataframe-real-size-in-pyspark/

from pyspark.serializers import PickleSerializer, AutoBatchedSerializer
def _to_java_object_rdd(rdd):  
    """ Return a JavaRDD of Object by unpickling
    It will convert each Python object into Java object by Pyrolite, whenever the
    RDD is serialized in batch or not.
    """
    rdd = rdd._reserialize(AutoBatchedSerializer(PickleSerializer()))
    return rdd.ctx._jvm.org.apache.spark.mllib.api.python.SerDe.pythonToJava(rdd._jrdd, True)

JavaObj = _to_java_object_rdd(df.rdd)

nbytes = sc._jvm.org.apache.spark.util.SizeEstimator.estimate(JavaObj)
Другие вопросы по тегам