是什么导致cisco交换机接口上的总输出下降?


16

我有一个HP c7000刀片服务器机箱,其中包含运行ios 12.2(58)SE1的Cisco 3120X和Cisco 3120G交换机。刀片服务器本身的负载非常轻,但是机箱中不同刀片服务器交换机上的许多接口显示出相当多的输出下降。如果我反复检查输出下降的次数,我不仅会看到计数器增加,有时还会减少。这些数字与接口上记录的数据包不相关。平台的QoS设置是默认设置。

以下样本均在30秒内获取:

bc1019-3120-stack> sh int gi2 / 0/7 | 我输出滴
  输入队列:0/75/0/0(大小/最大/滴/冲洗); 总输出下降:2255550
bc1019-3120-stack> sh int gi2 / 0/7 | 我输出滴
  输入队列:0/75/0/0(大小/最大/滴/冲洗); 总输出下降:2255550
bc1019-3120-stack> sh int gi2 / 0/7 | 我输出滴
  输入队列:0/75/0/0(大小/最大/滴/冲洗); 总输出下降:2255550
bc1019-3120-stack> sh int gi2 / 0/7 | 我输出滴
  输入队列:0/75/0/0(大小/最大/滴/冲洗); 总输出下降:2255550
bc1019-3120-stack> sh int gi2 / 0/7 | 我输出滴
  输入队列:0/75/0/0(大小/最大/滴/冲洗); 总输出下降:2255550
bc1019-3120-stack> sh int gi2 / 0/7 | 我输出滴
  输入队列:0/75/0/0(大小/最大/滴/冲洗); 总输出下降:2255550
bc1019-3120-stack> sh int gi2 / 0/7 | 我输出滴
  输入队列:0/75/0/0(大小/最大/滴/冲洗); 总输出下降:451110
bc1019-3120-stack> sh int gi2 / 0/7 | 我输出滴
  输入队列:0/75/0/0(大小/最大/滴/冲洗); 总输出下降:451110
bc1019-3120-stack> sh int gi2 / 0/7 | 我输出滴
  输入队列:0/75/0/0(大小/最大/滴/冲洗); 总输出下降:902220
bc1019-3120-stack> sh int gi2 / 0/7 | 我输出滴
  输入队列:0/75/0/0(大小/最大/滴/冲洗); 总输出下降:1353330
bc1019-3120-stack> sh int gi2 / 0/7 | 我输出滴
  输入队列:0/75/0/0(大小/最大/滴/冲洗); 总输出下降:1804440
bc1019-3120-stack> sh int gi2 / 0/7 | 我输出滴
  输入队列:0/75/0/0(大小/最大/滴/冲洗); 总输出下降:1804440
bc1019-3120-stack> sh int gi2 / 0/7 | 我输出滴
  输入队列:0/75/0/0(大小/最大/滴/冲洗); 总输出下降:1804440
bc1019-3120-stack> sh int gi2 / 0/7 | 我输出滴
  输入队列:0/75/0/0(大小/最大/滴/冲洗); 总输出下降:451490

bc1019-3120-stack> sh int gi2 / 0/7 | 我输出率
  5分钟输出速率301000位/秒,119包/秒

1)除了服务器nic不能足够快地接收帧以外,还有什么会导致输出下降的吗?

2)接口计数器可以记录的最大输出丢弃次数是多少?达到最大值时是否会翻转?

3)什么是健康的产出下降率?


正如Leonardo Abdalla指出的那样,在刀片服务器机箱上看到的不稳定的输出下降是CSCtq86186错误的结果
User123456

这是一个错误。我们碰到了同样的事情,升级到c3750e-universalk9-mz.150-2.SE4.bin,一切顺利。JB

Answers:


14

除非有人清除计数器,否则您永远都不会看到里程表类型的计数器(基于数据包操作而增加的计数器)减少,它们应该始终增加。那部分听起来像个bug。

就导致输出下降的特别原因而言,有太多不同的原因,很难准确地找出原因。有时,交换机的背板内部会发生拥塞,这些问题可能会在输出接口上的输出下降时出现。在极少数情况下,当以1分钟的间隔进行轮询时,也不会出现微爆,这会使接口快速过载,但是很快就会降下来。我建议您抓住SNMP OID进行输出丢弃,然后对其进行图形显示,并查看其与CLI计数器的对应关系。

一般来说,您不希望任何输出丢弃,因为它们表示未到达目的地的数据包。但是,如果您正在高速运行链接(您说不是那样),则在一定程度上这是不可避免的,主要是由于内部开关缓冲等原因。


我想知道在这种情况下是否有太多辍学,柜台回绕了。

1
它们是32位计数器,因此您无法接近极限。(可能是内部64位)
Ricky Beam

8

我的第一个想法是单播洪泛,尤其是当计数器在同一VLAN中的多个端口上一致地递增时。我同意亚伦的观点,计数器递减听起来像个错误。计数器可能会在2 ^ 64处翻转,但这不会在几秒钟内发生。我认为正常的输出速率下降为零,但这是不现实的,即使在数据中心也是如此。您正在做10G上行链路吗?


是的,刀片机箱中两个3120X分别有一个10gig上行链路(一个端口由于stp而被阻塞)
User123456

正如1G上行链路很容易使100M下行链路不堪重负一样,我敢肯定10G / 1G也是如此。当发生单播洪泛时尤其如此。我怀疑单播泛洪在带宽/ pps统计信息中是否显而易见。
丹尼斯·奥尔瓦尼


4

如果您遇到单播泛洪,则在其中一台主机上运行wireshark或跨端口之一运行应该会很快显示出来。

听起来您在方形拓扑中具有冗余核心?如果是这样,请尝试将此命令添加到您的VLAN接口:

arp timeout 300

CAM表将条目保留5分钟,而ARP表将保留四个小时(默认值)。将ARP设置为与CAM匹配可以消除单播泛洪,但会稍微增加CPU的开销。 Catalyst 6500/6000交换机ARP或CAM表问题疑难解答


1

输出下降在带有小缓冲区的小型交换机上相当普遍,因为任何突发都会耗尽缓冲区。我对3120并不是很熟悉,所以我不能说它的缓冲区大小,但这至少是一个常见的原因,直到有人可能会导致输出下降。

具体原因是线路阻塞(HOLB)头,其中多个源端口正在发送到一个目标,因此我们会出现拥塞。另一个常见的原因是从较高的端口速度变为较低的端口速度时,即10G至1G或40G至10G。

我建议您运行show controllers ethernet-controller X,其中X是您的端口。您应该获得有关输出下降的一些信息,例如,如果某项试图输出到较大的帧,如果您的网络中没有一致的MTU,则可能会发生这种情况。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.