网络吞吐量问题(与ARP相关)


9

我工作的那所小型大学遇到了一些非常奇怪的网络问题。我在这里寻找任何建议或想法。整个夏天我们都没事,但麻烦始于学生秋季入学的几天后。

病征

主要症状是可以访问互联网,但速度很慢...经常会超时。例如,来自Speedtest.net的典型结果将返回.4Mbps下载,但允许3至8 Mbps的上传速度。较小的症状可能包括与文件服务器之间来回传输数据的性能受到严重限制,甚至在某些情况下也无法登录计算机(无法访问域控制器)。此问题跨越多个VLAN,几乎影响了我们运营的每个VLAN上的设备。

该问题不会影响网络上的所有计算机。一台不受影响的计算机通常会从speedtest.net下载至少 11Mbps的内容,并且根据当时较大的校园流量模式,可能还会下载得更多。

在较大的问题上有一个变体。我们有一个VLAN,用户根本无法登录几乎所有计算机。IT人员将使用本地管理员帐户(或在某些情况下缓存的凭据)登录,然后从那里发布/续订或ping通网关将使计算机能够工作一段时间。使此问题复杂化的是,该VLAN涵盖了我们的计算机实验室,该实验室使用称为Deep Freeze的软件在重启后完全重置硬盘驱动器。可能是同一问题以不同的方式表现出来,这是因为计算机上的陈旧数据已连续几周未永久更改低级信息。但是,我们能够通过创建新的VLAN并将实验室移至新的VLAN批发商来解决此问题。

煽动

最终,我们注意到受影响的计算机都具有最近的dhcp租约。通过观察dhcp租约的续订时间,我们可以预测机器何时变慢。我们将测试vlan的租用时间设置得很短,但是所做的只是消除了我们预测机器何时变慢的能力。具有静态IP的计算机几乎总是可以正常工作。手动释放/更新地址绝不会导致计算机运行缓慢。实际上,在某些情况下,此过程已修复处于该状态的机器。但是,在大多数情况下,它无济于事。我们还注意到,笔记本电脑之类的移动设备跨入新的VLAN时可能会变慢。校园内的无线网络分为“区域”,每个区域映射到一小组建筑物。搬到新建筑物可以将您放置在区域中,从而使您获得新地址。从睡眠模式恢复的机器也很可能运行缓慢。

缓解措施

有时但并非总是如此,清除受影响的计算机上的arp缓存将使它再次正常工作。如前所述,释放/更新本地计算机的IP地址可以修复该计算机,但不能保证。对默认网关执行ping操作有时还可以帮助计算机速度较慢。

似乎最能缓解该问题的方法是清除我们核心三层交换机上的arp缓存。此开关用于我们的dhcp系统,作为所有VLAN上的默认网关,它处理VLAN间路由。该模型是3Com 4900SX。为了缓解此问题,我们一直在交换机上设置缓存超时,一直到最短的时间,但这并没有帮助。我还整理了一个脚本,该脚本每隔几分钟运行一次,以自动连接到交换机并重置缓存。不幸的是,这并不总是有效,甚至可能导致某些计算机在很短的时间内处于慢速状态(尽管几分钟后它们似乎会自行纠正)。我们目前有一个计划的作业,该作业每10分钟运行一次,以强制核心交换机清除其ARP缓存,但这远非完美或不可取。

再生产

现在,我们有一台测试机,可以随意将其强制进入慢速状态。它连接到具有为我们的每个VLAN设置的端口的交换机。我们通过连接到不同的VLAN来使机器变慢,而在一两个新的连接之后,它将变慢。

在本节中还应注意的是,这是在先前学期开始时就发生过的,但是在过去,问题在几天后就已经消失了。在我们有机会进行大量诊断工作之前,它就解决了自己的问题。预期这将是短暂的情况。

其他因素

值得一提的是,在过去的一年中,我们大约有六台交换机完全失败。这些主要是2003/2004年代的3Com(大多数是4200年代),它们几乎都同时插入。它们仍应在保修范围内,购买HP使得获得服务有些困难。多数情况下,电源已发生故障,但在某些情况下,我们使用了主板故障的交换机的电源来恢复电源故障的交换机的生命。现在,除了四个交换机中的三个交换机之外,我们的确有UPS设备,但是两年半前我就没有这种情况。严重的预算限制(几年前我们在Ed财务困难的机构部门中排名)迫使我不得不向Netgear和TrendNet之类的公司求助,

还值得一提的是,今年夏天我们网络的重大变化是从单个跨校园无线SSID迁移到前面提到的分区方法。我不认为这是问题的根源,就像我说过的:我们之前已经看到过。但是,这可能加剧了这个问题,并且可能是很难分离的大部分原因。

诊断

最初,考虑到问题的时间和持续性,对于我们来说似乎很清楚,问题的根源是被感染的(或恶意的)学生计算机在做ARP缓存中毒。但是,反复尝试隔离源已失败。这些尝试包括大量的Wireshark数据包痕迹,甚至使整栋建筑物暂时脱机。我们甚至找不到吸烟枪坏的ARP条目。我目前的最佳猜测是核心交换机过载或发生故障,但是我不确定如何测试,盲目更换它的成本很高。

再次,任何想法表示赞赏。

更新:
核心交换机已更换。4天后,一切运行良好...但是我要等两个星期,然后才能解决问题。


您是否在受影响的计算机上看到数据包丢失?如果是这样,丢包在哪里发生?mtr在这里可以有所帮助。
EEAA 2012年

3
这看起来可疑,好像您的一台交换机有故障,损坏了其arp表,并将损坏的条目传播到其他交换机。因此,当在L3内核上清除表时,部分缓解。我强烈建议您在尝试进一步排除故障之前重设所有开关。幸运的是,这完全解决了问题。如果交换机确实有故障,则有望在重启后使开机诊断失败。PS电网中的轻微波动会产生这种影响。如果您的交换机不在UPS上,则可能是根本原因。
Tonny 2012年

@ErikA我们确实有一些数据包丢失。我将看看是否能得到更好的跟踪...但是分组丢失来自校园中的每个位置,这意味着唯一的公共连接点是核心交换机和连接到我们服务器的交换机。
乔尔·科尔

1
@Tonny作为故障排除的一部分,我们至少重置了所有(几乎所有)开关两次。这似乎确实减少了(而不是消除了)大约一天/一天半的投诉。我们大约有40个开关单元,除了3个或4个外,其余所有设备都带有UPS设备。这里的主要问题是我们所有的交换机都大约在同一时间安装的,并且在过去的一年中我们发生了6次直接故障,因此有很多可信度。
乔尔·科尔

1
我没有任何3com的经验,但是也许有一种方法可以限制从给定端口获知的mac地址的数量。您可以在学生计算机的所有访问端口上执行此操作,以防有人Mac泛滥,将您的交换机变成集线器。
Bad Dos 2012年

Answers:


2

乔尔

由于您已经设置了中继线,因此可以随意复制该问题。在笔记本电脑上安装Wireshark并镜像/跨接上行链路端口。如果您看到超过10,000的数据包速率或接近最大速度的端口利用率,则可能是问题。

您可能遇到了硬件/生成树问题。通常,我发现用户在其计算机上插入两个网卡是为了“获得更大的吞吐量”。

通常,对于生成树问题,您可以从供应商的每个端口上打开“环路检测”或“广播限制”。这将杀死所有带有循环的端口。您还可以打开“ bpdu保护”,这意味着禁用接收bpdu的端口,并向syslog / snmp陷阱接收器抛出错误。


1

我以前见过类似的问题,这是LAN中的一个循环,它导致整个子网的混乱和饱和(大概是由于广播流量,因为交换机在另一个端口上看到了它自己的MAC)。

编辑:而且,这在教育机构中很常见(我之前的两个sysadmin工作),因为小宝贝们喜欢乱七八糟的跳线/插座...


我们花了大量时间检查这一点,但最终还是排除了。
乔尔·科尔

0

听起来对我来说,是因为您有一些劣质的硬件导致广播风暴。使用Wireshark观看广播并查找有麻烦的主机...


如果某些机器工作正常而其他机器工作不正常,则不太可能是这样。广播风暴将立即使整个VLAN瘫痪。
Paul Gear 2013年

0

Joe的想法很不错,但考虑到它不可能是引起您问题的广播风暴(我认为您正处于ARP缓存中毒或类似问题的正确轨道上,甚至可能是IP地址冲突),它可能无法解决问题。

如果您的交换机支持动态ARP和DHCP检查的相关技术。如果将其打开,则交换机将监视DHCP事务,并且仅允许与DHCP数据库中的已知条目匹配的ARP条目,或手动指定的条目。

如果您的交换机没有此功能,则另一个跟踪它的选项是Linux实用程序arpwatch-它会跟踪所有ARP请求,并在您注意到IP-MAC映射更改时通知您。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.