我有几个进程正在占用大量系统CPU时间(通过查看vmstat来确定)。有没有一种简单的方法来找出正在进行哪种系统调用?
我知道有strace,但是有没有更快更简单的方法?是否存在类似“ top”的系统调用?
我有几个进程正在占用大量系统CPU时间(通过查看vmstat来确定)。有没有一种简单的方法来找出正在进行哪种系统调用?
我知道有strace,但是有没有更快更简单的方法?是否存在类似“ top”的系统调用?
Answers:
我认为带有-c
标志的strace 可能是我所知道的最接近的。如果您尚未使用该-c
标志,请尝试以下操作:
$ sudo strace -c -p 12345
其中12345是相关进程的进程ID(PID)。请注意,对进程进行跟踪确实会增加额外的开销,因此在跟踪过程时,该进程将运行缓慢。
运行了您想要收集数据的时间后,请按Ctrl-C
停止收集数据并输出结果。它将产生如下内容:
% time seconds usecs/call calls errors syscall
------ ----------- ----------- --------- --------- ----------------
31.88 0.001738 145 12 futex
16.79 0.000915 11 80 tgkill
12.36 0.000674 34 20 read
9.76 0.000532 266 2 statfs
8.42 0.000459 13 35 time
4.38 0.000239 6 40 gettimeofday
3.65 0.000199 4 48 sigprocmask
2.94 0.000160 18 9 open
2.88 0.000157 12 13 stat64
1.32 0.000072 9 8 munmap
0.90 0.000049 6 8 mmap2
0.88 0.000048 3 14 7 sigreturn
0.79 0.000043 5 9 close
0.77 0.000042 4 10 rt_sigprocmask
0.64 0.000035 3 12 setitimer
0.55 0.000030 5 6 6 rt_sigsuspend
0.53 0.000029 4 8 fstat64
0.29 0.000016 8 2 setresuid32
0.13 0.000007 4 2 _llseek
0.09 0.000005 3 2 prctl
0.04 0.000002 2 1 geteuid32
------ ----------- ----------- --------- --------- ----------------
100.00 0.005451 341 13 total
如您所见,这是应用程序进行的所有系统调用的细分,按总时间排序,包括每次调用的平均时间和每个syscall的调用次数。如果要对它们进行不同的排序,请参见strace的手册页,因为有两个选项。
我倾向于使用的strace开关的类型是这个。
strace -ffttT -p pid -o /tmp/strace.out
例如,
19:35:57.485493 mprotect(0x7f35e7472000, 16384, PROT_READ) = 0 <0.000037>
19:35:57.485599 mprotect(0x7f35e7692000, 4096, PROT_READ) = 0 <0.000030>
19:35:57.485697 mprotect(0x7f35e78b7000, 4096, PROT_READ) = 0 <0.000030>
19:35:57.485782 munmap(0x7f35e7896000, 129588) = 0 <0.000037>
19:35:57.485875 set_tid_address(0x7f35e78949d0) = 10730 <0.000029>
19:35:57.485960 set_robust_list(0x7f35e78949e0, 0x18) = 0 <0.000024>
19:35:57.486048 futex(0x7fff8f58628c, FUTEX_WAKE_PRIVATE, 1) = 0 <0.000025>
19:35:57.486131 futex(0x7fff8f58628c, FUTEX_WAIT_BITSET_PRIVATE|FUTEX_CLOCK_REALTIME, 1, NULL, 7f35e7894700) = -1 EAGAIN (Resource temporarily unavailable) <0.000024>
您会在系统调用的右侧看到时差,该时差显示从一个系统调用转到另一个系统调用所花费的时间。
它可以捕获系统调用之间的时差。因此,当您发现一个系统调用与下一个系统调用有几秒钟的间隔时,就会发出一些噪音。
另一种方法是使用gcore将其转储。但是,这需要一些在gdb上导航的经验。
但是,如果线程是内核线程,则不能跟踪或将其核心转储。在这种情况下,我们必须使用更复杂的东西。在RHEL5内核中,我们使用oprofile。在RHEL6中,我们使用perf。我喜欢perf而不是oprofile。可以使用类似格式的图形来收集性能数据,该图形显示使用最大CPU百分比的系统调用。
通过测试性能,我看到了这一点。
38.06% swapper [kernel.kallsyms] [k] mwait_idle_with_hints ↑
29.45% swapper [kernel.kallsyms] [k] read_hpet
4.90% swapper [kernel.kallsyms] [k] acpi_os_read_port ▒
4.74% swapper [kernel.kallsyms] [k] hpet_next_event
它显示了花费38%CPU时间的内核功能。现在,我们可以检查该功能并查看它在做什么以及应该在做什么。
举几个例子,这并不难。