Как определить размер в байтах кадра H2O в Python?
Я загружаю кадры данных Spark в H2O (используя Python) для построения моделей машинного обучения. Мне было рекомендовано, чтобы я выделил кластер H2O с ОЗУ в 2-4 раза больше, чем кадр, на котором я буду тренироваться, чтобы анализ удобно помещался в памяти. Но я не знаю, как точно оценить размер рамки H2O.
Итак, предположим, что у меня уже есть кадр H2O, загруженный в Python, как мне определить его размер в байтах? Приближение в пределах 10-20% - это хорошо.
2 ответа
Это покажет сводку основного представления в хранилище значений ключей H2O, включая полный размер байта:
frame.describe(chunk_summary=True)
Это в 2-4 раза больше размера файла на диске, поэтому вместо того, чтобы смотреть на память в Python, посмотрите на оригинальный размер файла. Кроме того, рекомендация 2-4x варьируется в зависимости от алгоритма (GLM & DL потребует меньше памяти, чем модели на основе дерева).