Как определить размер в байтах кадра H2O в Python?

Я загружаю кадры данных Spark в H2O (используя Python) для построения моделей машинного обучения. Мне было рекомендовано, чтобы я выделил кластер H2O с ОЗУ в 2-4 раза больше, чем кадр, на котором я буду тренироваться, чтобы анализ удобно помещался в памяти. Но я не знаю, как точно оценить размер рамки H2O.

Итак, предположим, что у меня уже есть кадр H2O, загруженный в Python, как мне определить его размер в байтах? Приближение в пределах 10-20% - это хорошо.

2 ответа

Решение

Это покажет сводку основного представления в хранилище значений ключей H2O, включая полный размер байта:

frame.describe(chunk_summary=True)

Это в 2-4 раза больше размера файла на диске, поэтому вместо того, чтобы смотреть на память в Python, посмотрите на оригинальный размер файла. Кроме того, рекомендация 2-4x варьируется в зависимости от алгоритма (GLM & DL потребует меньше памяти, чем модели на основе дерева).

Другие вопросы по тегам