如何断开网络的一半?


11

我正在寻找一些事后建议,因此此事件不会再发生。

我们有两个Cisco 4500x交换机的网络核心,配置为VSS冗余。从这些服务器中,我们有iSCSI设备,用于vSphere的HP刀片中心,到用户访问交换机的聚合链接以及在服务器机房中用于铜缆设备的一对4948e交换机。从4948es开始,我们有一对用于两个ISP链路的2960交换机,以及一对用作防火墙的ASA。除了许多连接到4948e的设备只有一个NIC之外,冗余性还不错。我们只能做很多事情。

我们正准备将现有的用户访问开关(旧的Extremes)替换为Meraki。我们还正在实施Meraki AP,以取代目前的Arubas。无线项目的一部分涉及为AP管理和访客无线建立一些新的VLAN和子网。

我们在4500x上有两个已定义的VLAN(20和40),它们在任何地方都没有使用过-确认子网为空,没有使用它们的端口,等等。我进入4500x并发出“ no interface vlan 20”,然后用子网重建它我想了。然后,我将其添加到连接到Meraki的两个10Gb端口

switchport trunk allowed <previous list plus two VLANs above plus existing wireless VLAN>

我注意到20个VLAN和40个VLAN已关闭,因此我no shutdown对它们进行了发布。那时我失去了访问Merakis的权限,所以我意识到我没有为该链接的端口通道接口添加VLAN。

此时,我们一半的环境变得无法访问

我们的互联网链接变得异常脆弱。我们的Avaya VoIP电话无法拨入或拨出。我们有几个铜缆连接的iSCSI设备不可用-没有面向用户的中断,但是我们的备份和邮件存档受到影响。我进入服务器机房,将Merakis与4500x断开连接(拔下两个10Gb光纤端口),以防万一我以某种方式造成了环路-没改变。我承认当时只是盯着它看了一会儿。

我拉起Orion,并注意到我们的一个外部开关(Cat2960)和我们的ASA对之一也掉线了。显然我们有部分局域网连接丢失,但是ASA对也相互交叉连接,并且它们的上行链路没有断开,因此它们没有故障转移到内部设备可以到达的范围。我关闭了“关闭”的ASA,并且互联网再次可以访问。

我给TAC打了电话,经过几个小时的努力,技术人员不断为我在4500x上展示给他的每台故障主机挑选每个端口配置,然后我登录到我们的4948e交换机中,并展示了它无法ping的事情直接连接并向上连接-我们基于Windows的铜iSCSI设备之一,刀片中心上的iLO接口等。

他查看了日志并没有发现任何内容,但是此时他说:“即使我在日志中看不到它,看起来也像是生成树的错误”,因此我们重新启动了4948e及其所有部件连接的主机立即恢复-包括Avaya机柜,因此我们的电话再次开始工作。4500x光纤连接设备仍然存在问题-死路径,因为它们都是多余的。他想对它进行非正常的关机后再开机,但这已经包含了我们所有的10 Gbit iSCSI,这将使我们的vSphere环境(本质上是我们所有的服务器)表现糟糕。我说服他进行了优雅的冗余切换,从而解决了剩余的问题。

TL; DR:我对核心进行了相当无害的更改,并导致了一个可怕的问题。我是否犯了应该预料会导致此错误的配置错误-例如,如果我先不关闭VLAN,然后将其添加到端口通道,然后再将其添加到端口,是否可以避免这种情况?思科技术人员并未这么说。他说,由于正常运行时间超过一年并且使用的是旧的IOS版本,这种情况并不奇怪。

4500x:Cisco IOS软件,IOS-XE软件,Catalyst 4500 L3交换机软件(cat4500e-UNIVERSALK9-M)版本03.04.05.SG发行软件(fc1)ROM:15.0(1r)SG10

4948e:Cisco IOS软件,Catalyst 4500 L3交换软件(cat4500e-IPBASEK9-M),版本15.0(2)SG10,发布软件(fc1)ROM:12.2(44r)SG11

Answers:


5

听起来您好像制造了广播风暴,而阻止广播风暴的唯一方法就是关闭交换机的电源。经历了几次之后,我们采用了思科推荐的一些最佳实践:

  • 您只能将VLAN扩展到单个访问交换机。您可以在接入交换机上拥有任意数量的VLAN,但是任何接入交换机上的VLAN都不应中继到任何其他接入交换机,而只能中继到分布交换机。通过使用switchport trunk allowed vlan 命令手动禁用中继上的所有其他VLAN来实施此操作。
  • 分布交换机上不应有任何访问接口,而应只有分布中继接口。
  • 不要使用VTP(将所有开关设置为transparent模式)。
  • 你的访问接口应该有portfastbpduguard 启用。您可以为所有访问接口全局启用这些接口,并且中继接口将不受影响。如果您不小心将交换机连接到访问接口,则将导致该接口进入err-diable并阻止STP环路。
  • 请勿将访问开关连接到另一个访问开关。仅将访问交换机连接到分布交换机,并且仅在中继接口上。

这些最佳实践将防止几乎所有STP问题,并隔离单个访问交换机确实发生的任何问题。


2
是的。希望有一天,我希望在一个拥有足够资金,没有“怪异”(即L2)应用程序,温顺的用户社区以及足够的管理支持的网络上工作,以遵循所有推荐的良好实践。有一天
Ron Trunk

1.关于VLAN和访问交换机的第一个建议,我不确定我是否理解。
mfinni

2.我们的“分布”大概是我们的4500x,它主要是干线,但具有一些iSCSI光纤连接。
mfinni

3.避免使用
VTP-

4. portfast和bdpuguard-也会审查此建议
mfinni

3

除了上述Ron Maupin的出色建议外,我还在Cisco的论坛上找到了几篇有关我在此过程中犯下的潜在大错误的帖子。我首先将VLAN添加到了物理端口接口,而不是它们所属的端口通道接口。后者是执行此操作的正确方法,而我可能是造成此问题的原因。


2
如果成员接口出现故障,则可以按照您的方式进行操作。总的来说,我发现我要关闭成员接口,进行所有配置,包括端口通道,然后,一旦完成就可以进行配置。
罗恩·莫平
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.