在Linux中监控系统CPU /系统调用


9

我有几个进程正在占用大量系统CPU时间(通过查看vmstat来确定)。有没有一种简单的方法来找出正在进行哪种系统调用?

我知道有strace,但是有没有更快更简单的方法?是否存在类似“ top”的系统调用?


1
strace是解决方案。
华纳2010年

Answers:


15

我认为带有-c标志的strace 可能是我所知道的最接近的。如果您尚未使用该-c标志,请尝试以下操作:

$  sudo strace -c -p 12345

其中12345是相关进程的进程ID(PID)。请注意,对进程进行跟踪确实会增加额外的开销,因此在跟踪过程时,该进程将运行缓慢。

运行了您想要收集数据的时间后,请按Ctrl-C停止收集数据并输出结果。它将产生如下内容:

% time     seconds  usecs/call     calls    errors syscall
------ ----------- ----------- --------- --------- ----------------
 31.88    0.001738         145        12           futex
 16.79    0.000915          11        80           tgkill
 12.36    0.000674          34        20           read
  9.76    0.000532         266         2           statfs
  8.42    0.000459          13        35           time
  4.38    0.000239           6        40           gettimeofday
  3.65    0.000199           4        48           sigprocmask
  2.94    0.000160          18         9           open
  2.88    0.000157          12        13           stat64
  1.32    0.000072           9         8           munmap
  0.90    0.000049           6         8           mmap2
  0.88    0.000048           3        14         7 sigreturn
  0.79    0.000043           5         9           close
  0.77    0.000042           4        10           rt_sigprocmask
  0.64    0.000035           3        12           setitimer
  0.55    0.000030           5         6         6 rt_sigsuspend
  0.53    0.000029           4         8           fstat64
  0.29    0.000016           8         2           setresuid32
  0.13    0.000007           4         2           _llseek
  0.09    0.000005           3         2           prctl
  0.04    0.000002           2         1           geteuid32
------ ----------- ----------- --------- --------- ----------------
100.00    0.005451                   341        13 total

如您所见,这是应用程序进行的所有系统调用的细分,按总时间排序,包括每次调用的平均时间和每个syscall的调用次数。如果要对它们进行不同的排序,请参见strace的手册页,因为有两个选项。


2
该死的,互斥!握拳
Gaius

2

也许尝试其中一种采样分析器,例如oprofile,或者尝试使用较新的内核perf。如果您幸运的话,“ perf top”可能会准确地告诉您您想要什么。看到这里一些例子


2

我倾向于使用的strace开关的类型是这个。

strace -ffttT -p pid -o /tmp/strace.out

例如,

19:35:57.485493 mprotect(0x7f35e7472000, 16384, PROT_READ) = 0 <0.000037>
19:35:57.485599 mprotect(0x7f35e7692000, 4096, PROT_READ) = 0 <0.000030>
19:35:57.485697 mprotect(0x7f35e78b7000, 4096, PROT_READ) = 0 <0.000030>
19:35:57.485782 munmap(0x7f35e7896000, 129588) = 0 <0.000037>
19:35:57.485875 set_tid_address(0x7f35e78949d0) = 10730 <0.000029>
19:35:57.485960 set_robust_list(0x7f35e78949e0, 0x18) = 0 <0.000024>
19:35:57.486048 futex(0x7fff8f58628c, FUTEX_WAKE_PRIVATE, 1) = 0 <0.000025>
19:35:57.486131 futex(0x7fff8f58628c, FUTEX_WAIT_BITSET_PRIVATE|FUTEX_CLOCK_REALTIME, 1,       NULL, 7f35e7894700) = -1 EAGAIN (Resource temporarily unavailable) <0.000024>

您会在系统调用的右侧看到时差,该时差显示从一个系统调用转到另一个系统调用所花费的时间。

它可以捕获系统调用之间的时差。因此,当您发现一个系统调用与下一个系统调用有几秒钟的间隔时,就会发出一些噪音。

另一种方法是使用gcore将其转储。但是,这需要一些在gdb上导航的经验。

但是,如果线程是内核线程,则不能跟踪或将其核心转储。在这种情况下,我们必须使用更复杂的东西。在RHEL5内核中,我们使用oprofile。在RHEL6中,我们使用perf。我喜欢perf而不是oprofile。可以使用类似格式的图形来收集性能数据,该图形显示使用最大CPU百分比的系统调用。

通过测试性能,我看到了这一点。

38.06%  swapper  [kernel.kallsyms]  [k] mwait_idle_with_hints                                                                                                               ↑

29.45%  swapper  [kernel.kallsyms]  [k] read_hpet 
4.90%  swapper  [kernel.kallsyms]  [k] acpi_os_read_port                                                                                                                   ▒
4.74%  swapper  [kernel.kallsyms]  [k] hpet_next_event   

它显示了花费38%CPU时间的内核功能。现在,我们可以检查该功能并查看它在做什么以及应该在做什么。

举几个例子,这并不难。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.