需要居民集大小/虚拟大小的解释


61

我发现这pidstat将是监视流程的好工具。我想计算特定进程的平均内存使用率。这是一些示例输出:

02:34:36 PM       PID  minflt/s  majflt/s     VSZ    RSS   %MEM  Command
02:34:37 PM      7276      2.00      0.00  349212 210176   7.14  scalpel

(这是的输出的一部分pidstat -r -p 7276。)

我应该使用常驻集大小(RSS)或虚拟大小(VSZ)信息来计算平均内存消耗吗?我已经在Wikipedia和论坛上阅读了一些内容,但是我不确定是否完全了解这些区别。另外,似乎它们都不可靠。那么,如何监视进程以获取其内存使用情况?

在此问题上的任何帮助将是有用的。



Answers:


63

RSS是此进程当前在主内存(RAM)中有多少内存。VSZ是该进程总共具有多少虚拟内存。这包括所有类型的内存,包括RAM和换出的内存。这些数字可能会出现偏差,因为它们还包括共享库和其他类型的内存。您可以bash运行五百个实例,它们的内存占用空间的总和不会是它们的RSS或VSZ值的总和。

如果需要更详细地了解进程的内存占用量,则可以选择一些方法。您可以浏览/proc/$PID/map并清除不喜欢的内容。如果是共享库,则计算可能会变得复杂,具体取决于您的需求(我想我还记得)。

如果您只关心进程的堆大小,则始终可以仅分析文件中的[heap]条目map。内核已为进程堆分配的大小可能会或可能不会反映出进程已要求分配的确切字节数。有些细节,内核内部结构和优化可能会使其脱离现实。在理想的情况下,它会满足您的过程需要,并四舍五入到系统页面大小的最接近倍数(getconf PAGESIZE会告诉您它是什么-在PC上可能为4,096字节)。

如果要查看一个进程分配了多少内存,最好的方法之一就是放弃内核端指标。取而代之的是,使用该LD_PRELOAD机制来检测C库的堆内存(取消)分配功能。就我个人而言,我有点滥用valgrind以获得此类信息。(请注意,应用检测将需要重新启动该过程。)

请注意,由于您可能还会对运行时进行基准测试,这valgrind会使您的程序变慢一些(但可能在您的允许范围内)。


非常感谢!我将研究不同的选择。您已不仅仅提供帮助!:)
Flanfl 2012年

“您可以运行五百个bash实例,它们的内存占用空间的总和将不是它们的RSS或VSZ值的总和。” 但是,它们的RSS值之和会是一个很好的近似值吗?就像statm中的resident列之和一样,我不需要超可靠的准确值,但我需要高层知道我的Java进程正在使用多少内存
iloveretards

3
在Ubuntu上,/proc/$PID/maps是拼写错误还是发行版差异?
dolzenko '18

1

最小的可运行示例

为此,您必须了解分页的基础知识:https : //stackoverflow.com/questions/18431261/how-does-x86-paging-work,尤其是OS可以通过页表分配虚拟内存/它的内部内存簿记(VSZ虚拟内存)实际上在RAM或磁盘上有后备存储(RSS常驻内存)之前。

现在来看一下实际情况,让我们创建一个程序:

main.c

#define _GNU_SOURCE
#include <assert.h>
#include <inttypes.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <sys/mman.h>
#include <unistd.h>

typedef struct {
    unsigned long size,resident,share,text,lib,data,dt;
} ProcStatm;

/* https://stackoverflow.com/questions/1558402/memory-usage-of-current-process-in-c/7212248#7212248 */
void ProcStat_init(ProcStatm *result) {
    const char* statm_path = "/proc/self/statm";
    FILE *f = fopen(statm_path, "r");
    if(!f) {
        perror(statm_path);
        abort();
    }
    if(7 != fscanf(
        f,
        "%lu %lu %lu %lu %lu %lu %lu",
        &(result->size),
        &(result->resident),
        &(result->share),
        &(result->text),
        &(result->lib),
        &(result->data),
        &(result->dt)
    )) {
        perror(statm_path);
        abort();
    }
    fclose(f);
}

int main(int argc, char **argv) {
    ProcStatm proc_statm;
    char *base, *p;
    char system_cmd[1024];
    long page_size;
    size_t i, nbytes, print_interval, bytes_since_last_print;
    int snprintf_return;

    /* Decide how many ints to allocate. */
    if (argc < 2) {
        nbytes = 0x10000;
    } else {
        nbytes = strtoull(argv[1], NULL, 0);
    }
    if (argc < 3) {
        print_interval = 0x1000;
    } else {
        print_interval = strtoull(argv[2], NULL, 0);
    }
    page_size = sysconf(_SC_PAGESIZE);

    /* Allocate the memory. */
    base = mmap(
        NULL,
        nbytes,
        PROT_READ | PROT_WRITE,
        MAP_SHARED | MAP_ANONYMOUS,
        -1,
        0
    );
    if (base == MAP_FAILED) {
        perror("mmap");
        exit(EXIT_FAILURE);
    }

    /* Write to all the allocated pages. */
    i = 0;
    p = base;
    bytes_since_last_print = 0;
    /* Produce the ps command that lists only our VSZ and RSS. */
    snprintf_return = snprintf(
        system_cmd,
        sizeof(system_cmd),
        "ps -o pid,vsz,rss | awk '{if (NR == 1 || $1 == \"%ju\") print}'",
        (uintmax_t)getpid()
    );
    assert(snprintf_return >= 0);
    assert((size_t)snprintf_return < sizeof(system_cmd));
    bytes_since_last_print = print_interval;
    do {
        /* Modify a byte in the page. */
        *p = i;
        p += page_size;
        bytes_since_last_print += page_size;
        /* Print process memory usage every print_interval bytes.
         * We count memory using a few techniques from:
         * https://stackoverflow.com/questions/1558402/memory-usage-of-current-process-in-c */
        if (bytes_since_last_print > print_interval) {
            bytes_since_last_print -= print_interval;
            printf("extra_memory_committed %lu KiB\n", (i * page_size) / 1024);
            ProcStat_init(&proc_statm);
            /* Check /proc/self/statm */
            printf(
                "/proc/self/statm size resident %lu %lu KiB\n",
                (proc_statm.size * page_size) / 1024,
                (proc_statm.resident * page_size) / 1024
            );
            /* Check ps. */
            puts(system_cmd);
            system(system_cmd);
            puts("");
        }
        i++;
    } while (p < base + nbytes);

    /* Cleanup. */
    munmap(base, nbytes);
    return EXIT_SUCCESS;
}

GitHub上游

编译并运行:

gcc -ggdb3 -O0 -std=c99 -Wall -Wextra -pedantic -o main.out main.c
echo 1 | sudo tee /proc/sys/vm/overcommit_memory
sudo dmesg -c
./main.out 0x1000000000 0x200000000
echo $?
sudo dmesg

哪里:

程序输出:

extra_memory_committed 0 KiB
/proc/self/statm size resident 67111332 768 KiB
ps -o pid,vsz,rss | awk '{if (NR == 1 || $1 == "29827") print}'
  PID    VSZ   RSS
29827 67111332 1648

extra_memory_committed 8388608 KiB
/proc/self/statm size resident 67111332 8390244 KiB
ps -o pid,vsz,rss | awk '{if (NR == 1 || $1 == "29827") print}'
  PID    VSZ   RSS
29827 67111332 8390256

extra_memory_committed 16777216 KiB
/proc/self/statm size resident 67111332 16778852 KiB
ps -o pid,vsz,rss | awk '{if (NR == 1 || $1 == "29827") print}'
  PID    VSZ   RSS
29827 67111332 16778864

extra_memory_committed 25165824 KiB
/proc/self/statm size resident 67111332 25167460 KiB
ps -o pid,vsz,rss | awk '{if (NR == 1 || $1 == "29827") print}'
  PID    VSZ   RSS
29827 67111332 25167472

Killed

退出状态:

137

其中由128 +信号编号规则意味着,我们得到的信号数9,这man 7 signal说的是SIGKILL,这是由Linux发外的内存杀手

输出解释:

  • 在mmap之后,VSZ虚拟内存保持不变printf '0x%X\n' 0x40009A4 KiB ~= 64GiBps值以KiB为单位)。
  • RSS“实际内存使用量”仅在我们触摸页面时才缓慢增加。例如:
    • 在第一张纸上,我们有extra_memory_committed 0,这意味着我们还没有触摸过任何页面。RSS很小1648 KiB,已分配给正常的程序启动,如文本区域,全局变量等。
    • 在第二张纸上,我们已经写了8388608 KiB == 8GiB一些页面。结果,RSS正好增加了8GIB,8390256 KiB == 8388608 KiB + 1648 KiB
    • RSS继续以8GiB的增量增加。最后的打印显示大约24 GiB的内存,在可以打印32 GiB之前,OOM杀手杀死了该进程

另请参阅:关于居民集大小/虚拟大小的需要说明

OOM杀手日志

我们的dmesg命令显示了OOM杀手日志。

有关这些问题的确切解释,请访问:

日志的第一行是:

[ 7283.479087] mongod invoked oom-killer: gfp_mask=0x6200ca(GFP_HIGHUSER_MOVABLE), order=0, oom_score_adj=0

因此,有趣的是,MongoDB守护程序始终在我的笔记本电脑中始终在后台运行,这首先触发了OOM杀手,大概是当可怜的事情试图分配一些内存时。

但是,OOM​​杀手并不一定要杀死唤醒它的人。

调用之后,内核将打印一个包含以下内容的表或进程oom_score

[ 7283.479292] [  pid  ]   uid  tgid total_vm      rss pgtables_bytes swapents oom_score_adj name
[ 7283.479303] [    496]     0   496    16126        6   172032      484             0 systemd-journal
[ 7283.479306] [    505]     0   505     1309        0    45056       52             0 blkmapd
[ 7283.479309] [    513]     0   513    19757        0    57344       55             0 lvmetad
[ 7283.479312] [    516]     0   516     4681        1    61440      444         -1000 systemd-udevd

再往前看,我们看到自己的东西main.out在上一次调用中实际上被杀死了:

[ 7283.479871] Out of memory: Kill process 15665 (main.out) score 865 or sacrifice child
[ 7283.479879] Killed process 15665 (main.out) total-vm:67111332kB, anon-rss:92kB, file-rss:4kB, shmem-rss:30080832kB
[ 7283.479951] oom_reaper: reaped process 15665 (main.out), now anon-rss:0kB, file-rss:0kB, shmem-rss:30080832kB

该日志提到该score 865进程具有哪个进程,可能是最高(最差)的OOM杀手得分,如以下所述:OOM杀手如何确定首先杀死哪个进程?

同样有趣的是,所有事情显然发生得如此之快,以至于在对释放的内存进行说明之前oom,该DeadlineMonitor过程再次被唤醒:

[ 7283.481043] DeadlineMonitor invoked oom-killer: gfp_mask=0x6200ca(GFP_HIGHUSER_MOVABLE), order=0, oom_score_adj=0

这次杀死了一些Chromium进程,这通常是我计算机的正常内存消耗:

[ 7283.481773] Out of memory: Kill process 11786 (chromium-browse) score 306 or sacrifice child
[ 7283.481833] Killed process 11786 (chromium-browse) total-vm:1813576kB, anon-rss:208804kB, file-rss:0kB, shmem-rss:8380kB
[ 7283.497847] oom_reaper: reaped process 11786 (chromium-browse), now anon-rss:0kB, file-rss:0kB, shmem-rss:8044kB

已在Ubuntu 19.04,Linux内核5.0.0中进行了测试。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.