Python-эквивалент PHP memory_get_usage()?

Я уже нашел следующий вопрос, но мне было интересно, есть ли более быстрый и более грязный способ получения оценки того, сколько памяти интерпретатор Python в настоящее время использует для моего сценария, который не зависит от внешних библиотек.

Я пришел из PHP и привык часто использовать http://au.php.net/memory_get_usage и http://au.php.net/memory_get_peak_usage для этой цели, и я надеялся найти эквивалент.

6 ответов

Решение

Простое решение для Linux и других систем с /proc/self/status следующий код, который я использую в моем проекте:

def memory_usage():
    """Memory usage of the current process in kilobytes."""
    status = None
    result = {'peak': 0, 'rss': 0}
    try:
        # This will only work on systems with a /proc file system
        # (like Linux).
        status = open('/proc/self/status')
        for line in status:
            parts = line.split()
            key = parts[0][2:-1].lower()
            if key in result:
                result[key] = int(parts[1])
    finally:
        if status is not None:
            status.close()
    return result

Он возвращает текущий и пиковый размер резидентной памяти (что, вероятно, имеют в виду люди, когда говорят о том, сколько ОЗУ использует приложение). Его легко расширить, чтобы получить другую информацию из /proc/self/status файл.

Для любопытных: полный вывод cat /proc/self/status выглядит так:

% cat /proc/self/status
Name:   cat
State:  R (running)
Tgid:   4145
Pid:    4145
PPid:   4103
TracerPid:      0
Uid:    1000    1000    1000    1000
Gid:    1000    1000    1000    1000
FDSize: 32
Groups: 20 24 25 29 40 44 46 100 1000 
VmPeak:     3580 kB
VmSize:     3580 kB
VmLck:         0 kB
VmHWM:       472 kB
VmRSS:       472 kB
VmData:      160 kB
VmStk:        84 kB
VmExe:        44 kB
VmLib:      1496 kB
VmPTE:        16 kB
Threads:        1
SigQ:   0/16382
SigPnd: 0000000000000000
ShdPnd: 0000000000000000
SigBlk: 0000000000000000
SigIgn: 0000000000000000
SigCgt: 0000000000000000
CapInh: 0000000000000000
CapPrm: 0000000000000000
CapEff: 0000000000000000
CapBnd: ffffffffffffffff
Cpus_allowed:   03
Cpus_allowed_list:      0-1
Mems_allowed:   1
Mems_allowed_list:      0
voluntary_ctxt_switches:        0
nonvoluntary_ctxt_switches:     0

Вы также можете использовать getrusage() функция из стандартного библиотечного модуля resource, Полученный объект имеет атрибут ru_maxrss, что дает общее использование памяти для вызывающего процесса:

>>> import resource
>>> resource.getrusage(resource.RUSAGE_SELF).ru_maxrss
2656

Документы Python не ясно, какие именно устройства, но справочная страница Mac OS X для getrusage(2) описывает единицы в килобайтах.

Справочная страница Linux не ясна, но кажется, что она эквивалентна /proc/self/status информация (т.е. килобайты) описана в принятом ответе. Для того же процесса, что и выше, работающего в Linux, функция, указанная в принятом ответе, дает:

>>> memory_usage()                                    
{'peak': 6392, 'rss': 2656}

Это может быть не так просто, как /proc/self/status решение, но это стандартная библиотека, поэтому (при условии, что модули стандартные) она должна быть кроссплатформенной и использоваться в системах, в которых отсутствует /proc/ (например, Mac OS X и другие Unixes, может быть, Windows).

Также, getrusage() функция также может быть задана resource.RUSAGE_CHILDREN чтобы получить использование для дочерних процессов, и (в некоторых системах) resource.RUSAGE_BOTH для общего (самостоятельного и дочернего) использования процесса.

Это покроет memory_get_usage() случай, но не включает пиковое использование. Я не уверен, если какие-либо другие функции из resource модуль может дать пиковое использование.

Принимаются правила ответа, но может быть проще (и более переносимо) использовать psutil. Это делает то же самое и намного больше.

ОБНОВЛЕНИЕ: muppy также очень удобен (и намного лучше задокументирован, чем гуппи /heapy).

Попробуйте кучу

Данные того же типа, что и в /proc/self/status также в /proc/self/statm, Тем не менее, это легче разобрать, потому что это просто список разделенных пробелами нескольких статистических данных. Я не смог сказать, присутствуют ли оба файла всегда.

/ Proc/[PID]/statm

Предоставляет информацию об использовании памяти, измеряемую в страницах. Столбцы:

  • size (1) общий размер программы (такой же, как VmSize в /proc/[pid]/status)
  • резидентный (2) размер резидентного набора (такой же, как VmRSS в /proc/[pid]/status)
  • shared (3) количество резидентных общих страниц (т. е. поддержанных файлом) (аналогично RssFile+RssShmem в /proc/[pid]/status)
  • текст (4) текст (код)
  • Библиотека lib (5) (не используется с Linux 2.6; всегда 0)
  • данные (6) данные + стек
  • dt (7) грязные страницы (не используется начиная с Linux 2.6; всегда 0)

Вот простой пример:

from pathlib import Path
from resource import getpagesize


def get_resident_set_size():
    # Columns are: size resident shared text lib data dt
    statm = Path('/proc/self/statm').read_text()
    fields = statm.split()
    return int(fields[1]) * getpagesize()


data = []
start_memory = get_resident_set_size()
for _ in range(10):
    data.append('X' * 100000)
    print(get_resident_set_size() - start_memory)

Это создает список, который выглядит примерно так:

0
0
368640
368640
368640
638976
638976
909312
909312
909312

Вы можете видеть, что он увеличивается примерно на 300 000 байтов после примерно 3 распределений по 100 000 байтов.

/proc/self/status имеет следующие соответствующие ключи:

  • VmPeak: Пиковый размер виртуальной памяти.
  • VmSize: размер виртуальной памяти.
  • VmHWM: Пиковый размер резидентного набора ("отметка максимальной воды").
  • VmRSS: размер резидентного набора.

Поэтому, если проблема связана с резидентной памятью, следующий код может быть использован для ее извлечения:

def get_proc_status(keys = None):
    with open('/proc/self/status') as f:
        data = dict(map(str.strip, line.split(':', 1)) for line in f)

    return tuple(data[k] for k in keys) if keys else data

peak, current = get_proc_status(('VmHWM', 'VmRSS'))
print(peak, current)  # outputs: 14280 kB 13696 kB

Вот статья автора memory_profiler, которая объясняет, что getrusage "s ru_maxrss не всегда практическая мера. Также обратите внимание, что VmHWM может отличаться от ru_maxrss (что я вижу в некоторых случаях ru_maxrss лучше). Но в простом случае они одинаковы:

import resource


def report():
    maxrss = resource.getrusage(resource.RUSAGE_SELF).ru_maxrss
    peak, current = get_proc_status(('VmHWM', 'VmRSS'))
    print(current, peak, maxrss)


report()

s = ' ' * 2 ** 28  # 256MiB
report()

s = None
report()

Кроме того, вот очень понятное, но информативное тематическое исследование авторов, которое объясняет, что такое ядро, виртуальная и резидентная память, и как они взаимозависимы.

Другие вопросы по тегам