什么进程正在使用我的所有磁盘IO


120

如果使用“ top”,我可以看到什么CPU正在忙,什么进程正在使用我的所有CPU。

如果我使用“ iostat -x”,则可以看到哪个驱动器正忙。

但是,我如何查看正在使用所有驱动器吞吐量的进程?


2
好吧,从技术上讲,这对于Linux也是正确的,因为用户进程只修改页面缓存中的页面……;)
Damon 2014年

只是我所遇到的问题和我一直在寻找的答案,但是这种问题不适用于SuperUser吗?
Zeta两

这就是为什么Linux是逊色于Solaris和MacOS的,因为它们都内置了解到,DTrace使这个平凡简单的了解一下: - /
托尔比约恩Ravn的安德森

Answers:


162

您正在寻找iotop(假设您的内核> 2.6.20和Python 2.5)。失败的话,您正在考虑挂接到文件系统中。我推荐前者。


8
iotop似乎显示的是I / O带宽,而不是进程消耗的IOPS数量。这不是超级相关。与以高速方式连续写入大量连续数据的过程相比,执行大量小写入+同步的过程将消耗更多的磁盘IO容量。
Arnaud Le Blanc

对于小型写入,我所看到的只是[jdb2/nvme0n1p1]在iotop中,但是我很幸运地启用了/ proc / sys / vm / block_dump并将输出与运行状况良好 /稳定的系统进行比较lxadm.com/Simple_filesystem_read/write_tracing_with_/proc/sys / ...它有助于查找一个docker容器,该容器不断产生kubectl请求,并用中的条目耗尽EBS卷的突发信用/home/spinnaker/.kube/cache/discovery/.../serverresources.json。将范围缩小到用户/进程名称后,类似的内容iotop -atku systemd-network | grep kubectl也可能会有所帮助
Greg Bray

16

要找出当前正在运行状态为“ D”(等待磁盘响应)的进程,请执行以下操作:

while true; do date; ps aux | awk '{if($8=="D") print $0;}'; sleep 1; done

要么

watch -n1 -d "ps axu | awk '{if (\$8==\"D\") {print \$0}}'"

Wed Aug 29 13:00:46 CLT 2012
root       321  0.0  0.0      0     0 ?        D    May28   4:25  \_ [jbd2/dm-0-8]
Wed Aug 29 13:00:47 CLT 2012
Wed Aug 29 13:00:48 CLT 2012
Wed Aug 29 13:00:49 CLT 2012
Wed Aug 29 13:00:50 CLT 2012
root       321  0.0  0.0      0     0 ?        D    May28   4:25  \_ [jbd2/dm-0-8]
Wed Aug 29 13:00:51 CLT 2012
Wed Aug 29 13:00:52 CLT 2012
Wed Aug 29 13:00:53 CLT 2012
Wed Aug 29 13:00:55 CLT 2012
Wed Aug 29 13:00:56 CLT 2012
root       321  0.0  0.0      0     0 ?        D    May28   4:25  \_ [jbd2/dm-0-8]
Wed Aug 29 13:00:57 CLT 2012
root       302  0.0  0.0      0     0 ?        D    May28   3:07  \_ [kdmflush]
root       321  0.0  0.0      0     0 ?        D    May28   4:25  \_ [jbd2/dm-0-8]
Wed Aug 29 13:00:58 CLT 2012
root       302  0.0  0.0      0     0 ?        D    May28   3:07  \_ [kdmflush]
root       321  0.0  0.0      0     0 ?        D    May28   4:25  \_ [jbd2/dm-0-8]
Wed Aug 29 13:00:59 CLT 2012
root       302  0.0  0.0      0     0 ?        D    May28   3:07  \_ [kdmflush]
root       321  0.0  0.0      0     0 ?        D    May28   4:25  \_ [jbd2/dm-0-8]
Wed Aug 29 13:01:00 CLT 2012
root       302  0.0  0.0      0     0 ?        D    May28   3:07  \_ [kdmflush]
root       321  0.0  0.0      0     0 ?        D    May28   4:25  \_ [jbd2/dm-0-8]
Wed Aug 29 13:01:01 CLT 2012
root       302  0.0  0.0      0     0 ?        D    May28   3:07  \_ [kdmflush]
root       321  0.0  0.0      0     0 ?        D    May28   4:25  \_ [jbd2/dm-0-8]
Wed Aug 29 13:01:02 CLT 2012
Wed Aug 29 13:01:03 CLT 2012
root       321  0.0  0.0      0     0 ?        D    May28   4:25  \_ [jbd2/dm-0-8]

从结果中可以看到,jdb2 / dm-0-8(ext4日志进程)和kdmflush一直在阻塞Linux。

有关更多详细信息,此URL可能会有所帮助:Linux Wait-IO问题


11

即使在无法运行iotop的较旧CentOS 5.x系统上,atop也可以很好地工作并且可以轻松安装。点击d显示磁盘详细信息,?以寻求帮助。

ATOP - mybox                           2014/09/08  15:26:00                           ------                            10s elapsed
PRC |  sys    0.33s |  user   1.08s |                | #proc    161  |  #zombie    0 |  clones    31 |                | #exit         16  |
CPU |  sys   4% |  user     11% |  irq       0%  | idle    306%  |  wait     79% |               |  steal     1%  | guest     0%  |
cpu |  sys   2% |  user      8% |  irq       0%  | idle     11%  |  cpu000 w 78% |               |  steal     0%  | guest     0%  |
cpu |  sys   1% |  user      1% |  irq       0%  | idle     98%  |  cpu001 w  0% |               |  steal     0%  | guest     0%  |
cpu |  sys   1% |  user      1% |  irq       0%  | idle     99%  |  cpu003 w  0% |               |  steal     0%  | guest     0%  |
cpu |  sys   0% |  user      1% |  irq       0%  | idle     99%  |  cpu002 w  0% |               |  steal     0%  | guest     0%  |
CPL |  avg1    2.09 |  avg5    2.09 |  avg15   2.09  |               |  csw    54184 |  intr   33581 |                | numcpu     4  |
MEM |  tot     8.0G |  free   81.9M |  cache   2.9G  | dirty   0.8M  |  buff  174.7M |  slab  305.0M |                |               |
SWP |  tot     2.0G |  free    2.0G |                |               |               |               |  vmcom   8.4G  | vmlim   6.0G  |
LVM |  Group00-root |  busy     85% |  read       0  | write  30658  |  KiB/w      4 |  MBr/s   0.00 |  MBw/s  11.98  | avio 0.28 ms  |
DSK |          xvdb |  busy     85% |  read       0  | write  23706  |  KiB/w      5 |  MBr/s   0.00 |  MBw/s  11.97  | avio 0.36 ms  |
NET |  transport    |  tcpi    2705 |  tcpo    2008  | udpi      36  |  udpo      43 |  tcpao     14 |  tcppo     45  | tcprs      1  |
NET |  network      |  ipi     2788 |  ipo     2072  | ipfrw      0  |  deliv   2768 |               |  icmpi      7  | icmpo     20  |
NET |  eth0    ---- |  pcki    2344 |  pcko    1623  | si 1455 Kbps  |  so  781 Kbps |  erri       0 |  erro       0  | drpo       0  |
NET |  lo      ---- |  pcki     423 |  pcko     423  | si   88 Kbps  |  so   88 Kbps |  erri           0 |  erro       0  | drpo       0  |
NET |  eth1    ---- |  pcki  22 |  pcko      26  | si    3 Kbps  |  so    5 Kbps |  erri       0 |  erro       0  | drpo       0  |

  PID                   RDDSK                    WRDSK                   WCANCL                    DSK                   CMD        1/1
 9862                      0K                   53124K                       0K                    98%                   java
  358                      0K                     636K                       0K                     1%                   jbd2/dm-0-8
13893                      0K                     192K                      72K                     0%                   java
 1699                      0K                      60K                       0K                     0%                   syslogd
 4668                      0K                      24K                       0K                     0%                   zabbix_agentd

这清楚地表明Java pid 9862是元凶。


4

TL; DR

如果可以使用iotop,请使用。否则,这可能会有所帮助。


使用top,然后使用以下快捷方式:

d 1 = set refresh time from 3 to 1 second

1   = show stats for each cpu, not cumulated

这必须显示> 1.0 wa至少一个内核的值-如果没有磁盘等待,则根本没有IO负载,也不需要进一步检查。通常开始大量的负载> 15.0 wa

x       = highlight current sort column 
< and > = change sort column
R       = reverse sort order

选择“ S”,即过程状态列。颠倒排序顺序,因此“ R”(运行)过程显示在顶部。如果可以发现“ D”进程(正在等待磁盘),则可以指示出罪魁祸首。


3

对于KDE用户,您可以使用'ctrl-esc'顶部调用系统活动性监视器,并且具有带有进程ID和名称的I / O活动图表。

由于“新用户状态”,我没有上传图像的权限,但是您可以在下面查看图像。它具有用于IO读写的列。



By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.