我正在寻找一些事后建议,因此此事件不会再发生。
我们有两个Cisco 4500x交换机的网络核心,配置为VSS冗余。从这些服务器中,我们有iSCSI设备,用于vSphere的HP刀片中心,到用户访问交换机的聚合链接以及在服务器机房中用于铜缆设备的一对4948e交换机。从4948es开始,我们有一对用于两个ISP链路的2960交换机,以及一对用作防火墙的ASA。除了许多连接到4948e的设备只有一个NIC之外,冗余性还不错。我们只能做很多事情。
我们正准备将现有的用户访问开关(旧的Extremes)替换为Meraki。我们还正在实施Meraki AP,以取代目前的Arubas。无线项目的一部分涉及为AP管理和访客无线建立一些新的VLAN和子网。
我们在4500x上有两个已定义的VLAN(20和40),它们在任何地方都没有使用过-确认子网为空,没有使用它们的端口,等等。我进入4500x并发出“ no interface vlan 20
”,然后用子网重建它我想了。然后,我将其添加到连接到Meraki的两个10Gb端口
switchport trunk allowed <previous list plus two VLANs above plus existing wireless VLAN>
我注意到20个VLAN和40个VLAN已关闭,因此我no shutdown
对它们进行了发布。那时我失去了访问Merakis的权限,所以我意识到我没有为该链接的端口通道接口添加VLAN。
此时,我们一半的环境变得无法访问
我们的互联网链接变得异常脆弱。我们的Avaya VoIP电话无法拨入或拨出。我们有几个铜缆连接的iSCSI设备不可用-没有面向用户的中断,但是我们的备份和邮件存档受到影响。我进入服务器机房,将Merakis与4500x断开连接(拔下两个10Gb光纤端口),以防万一我以某种方式造成了环路-没改变。我承认当时只是盯着它看了一会儿。
我拉起Orion,并注意到我们的一个外部开关(Cat2960)和我们的ASA对之一也掉线了。显然我们有部分局域网连接丢失,但是ASA对也相互交叉连接,并且它们的上行链路没有断开,因此它们没有故障转移到内部设备可以到达的范围。我关闭了“关闭”的ASA,并且互联网再次可以访问。
我给TAC打了电话,经过几个小时的努力,技术人员不断为我在4500x上展示给他的每台故障主机挑选每个端口配置,然后我登录到我们的4948e交换机中,并展示了它无法ping的事情直接连接并向上连接-我们基于Windows的铜iSCSI设备之一,刀片中心上的iLO接口等。
他查看了日志并没有发现任何内容,但是此时他说:“即使我在日志中看不到它,看起来也像是生成树的错误”,因此我们重新启动了4948e及其所有部件连接的主机立即恢复-包括Avaya机柜,因此我们的电话再次开始工作。4500x光纤连接设备仍然存在问题-死路径,因为它们都是多余的。他想对它进行非正常的关机后再开机,但这已经包含了我们所有的10 Gbit iSCSI,这将使我们的vSphere环境(本质上是我们所有的服务器)表现糟糕。我说服他进行了优雅的冗余切换,从而解决了剩余的问题。
TL; DR:我对核心进行了相当无害的更改,并导致了一个可怕的问题。我是否犯了应该预料会导致此错误的配置错误-例如,如果我先不关闭VLAN,然后将其添加到端口通道,然后再将其添加到端口,是否可以避免这种情况?思科技术人员并未这么说。他说,由于正常运行时间超过一年并且使用的是旧的IOS版本,这种情况并不奇怪。
4500x:Cisco IOS软件,IOS-XE软件,Catalyst 4500 L3交换机软件(cat4500e-UNIVERSALK9-M)版本03.04.05.SG发行软件(fc1)ROM:15.0(1r)SG10
4948e:Cisco IOS软件,Catalyst 4500 L3交换软件(cat4500e-IPBASEK9-M),版本15.0(2)SG10,发布软件(fc1)ROM:12.2(44r)SG11