我工作的那所小型大学遇到了一些非常奇怪的网络问题。我在这里寻找任何建议或想法。整个夏天我们都没事,但麻烦始于学生秋季入学的几天后。
病征
主要症状是可以访问互联网,但速度很慢...经常会超时。例如,来自Speedtest.net的典型结果将返回.4Mbps下载,但允许3至8 Mbps的上传速度。较小的症状可能包括与文件服务器之间来回传输数据的性能受到严重限制,甚至在某些情况下也无法登录计算机(无法访问域控制器)。此问题跨越多个VLAN,几乎影响了我们运营的每个VLAN上的设备。
该问题不会影响网络上的所有计算机。一台不受影响的计算机通常会从speedtest.net下载至少 11Mbps的内容,并且根据当时较大的校园流量模式,可能还会下载得更多。
在较大的问题上有一个变体。我们有一个VLAN,用户根本无法登录几乎所有计算机。IT人员将使用本地管理员帐户(或在某些情况下缓存的凭据)登录,然后从那里发布/续订或ping通网关将使计算机能够工作一段时间。使此问题复杂化的是,该VLAN涵盖了我们的计算机实验室,该实验室使用称为Deep Freeze的软件在重启后完全重置硬盘驱动器。可能是同一问题以不同的方式表现出来,这是因为计算机上的陈旧数据已连续几周未永久更改低级信息。但是,我们能够通过创建新的VLAN并将实验室移至新的VLAN批发商来解决此问题。
煽动
最终,我们注意到受影响的计算机都具有最近的dhcp租约。通过观察dhcp租约的续订时间,我们可以预测机器何时变慢。我们将测试vlan的租用时间设置得很短,但是所做的只是消除了我们预测机器何时变慢的能力。具有静态IP的计算机几乎总是可以正常工作。手动释放/更新地址绝不会导致计算机运行缓慢。实际上,在某些情况下,此过程已修复处于该状态的机器。但是,在大多数情况下,它无济于事。我们还注意到,笔记本电脑之类的移动设备跨入新的VLAN时可能会变慢。校园内的无线网络分为“区域”,每个区域映射到一小组建筑物。搬到新建筑物可以将您放置在区域中,从而使您获得新地址。从睡眠模式恢复的机器也很可能运行缓慢。
缓解措施
有时但并非总是如此,清除受影响的计算机上的arp缓存将使它再次正常工作。如前所述,释放/更新本地计算机的IP地址可以修复该计算机,但不能保证。对默认网关执行ping操作有时还可以帮助计算机速度较慢。
似乎最能缓解该问题的方法是清除我们核心三层交换机上的arp缓存。此开关用于我们的dhcp系统,作为所有VLAN上的默认网关,它处理VLAN间路由。该模型是3Com 4900SX。为了缓解此问题,我们一直在交换机上设置缓存超时,一直到最短的时间,但这并没有帮助。我还整理了一个脚本,该脚本每隔几分钟运行一次,以自动连接到交换机并重置缓存。不幸的是,这并不总是有效,甚至可能导致某些计算机在很短的时间内处于慢速状态(尽管几分钟后它们似乎会自行纠正)。我们目前有一个计划的作业,该作业每10分钟运行一次,以强制核心交换机清除其ARP缓存,但这远非完美或不可取。
再生产
现在,我们有一台测试机,可以随意将其强制进入慢速状态。它连接到具有为我们的每个VLAN设置的端口的交换机。我们通过连接到不同的VLAN来使机器变慢,而在一两个新的连接之后,它将变慢。
在本节中还应注意的是,这是在先前学期开始时就发生过的,但是在过去,问题在几天后就已经消失了。在我们有机会进行大量诊断工作之前,它就解决了自己的问题。预期这将是短暂的情况。
其他因素
值得一提的是,在过去的一年中,我们大约有六台交换机完全失败。这些主要是2003/2004年代的3Com(大多数是4200年代),它们几乎都同时插入。它们仍应在保修范围内,购买HP使得获得服务有些困难。多数情况下,电源已发生故障,但在某些情况下,我们使用了主板故障的交换机的电源来恢复电源故障的交换机的生命。现在,除了四个交换机中的三个交换机之外,我们的确有UPS设备,但是两年半前我就没有这种情况。严重的预算限制(几年前我们在Ed财务困难的机构部门中排名)迫使我不得不向Netgear和TrendNet之类的公司求助,
还值得一提的是,今年夏天我们网络的重大变化是从单个跨校园无线SSID迁移到前面提到的分区方法。我不认为这是问题的根源,就像我说过的:我们之前已经看到过。但是,这可能加剧了这个问题,并且可能是很难分离的大部分原因。
诊断
最初,考虑到问题的时间和持续性,对于我们来说似乎很清楚,问题的根源是被感染的(或恶意的)学生计算机在做ARP缓存中毒。但是,反复尝试隔离源已失败。这些尝试包括大量的Wireshark数据包痕迹,甚至使整栋建筑物暂时脱机。我们甚至找不到吸烟枪坏的ARP条目。我目前的最佳猜测是核心交换机过载或发生故障,但是我不确定如何测试,盲目更换它的成本很高。
再次,任何想法表示赞赏。
更新:
核心交换机已更换。4天后,一切运行良好...但是我要等两个星期,然后才能解决问题。
mtr
在这里可以有所帮助。